«Яндекс Браузер» может переводить с китайского языка и автоматически накладывать русскую озвучку

17-04-2023 11:37

«Яндекс Браузер» научился переводить видео с китайского языка. Функция уже доступна в роликах на YouTube, а скоро заработает и на популярном китайском видеохостинге

Готовых решений для китайского языка не было, поэтому разработчики с нуля собрали датасет. При помощи специального алгоритма создатели обработали 1,5 миллиона видео и выбрали 100 тысяч с качественными субтитрами на севернокитайском языке.

Превращение речи в текст был первый этап перевода, и для этого нейросети, используемой в «Яндекс Браузере», пришлось выучить тысячи иероглифов. Нейросеть научилась понимать иероглифы, а словарь, для работы с китайским языком, разработчики закодировали в виде 10 тысяч токенов.

Один токен — это один слог или регулярно использующеюся сочетание двух слогов. Как говорят создатели, пять европейских языков, переводимые «Яндекс Браузером», уместились в библиотеку на 5 тысяч токенов. Кроме того, нейросеть обучили делить сплошной поток иероглифов на смысловые отрезки, для точной синхронизации перевода с исходной речью.

Самая сложная особенность китайского языка — это изучение четырёх тонов, определяющих смысл сказанного. Тон представляет собой мелодический рисунок голоса. Один и тот же слог, произнесённый с повышением или понижением голоса, означает разные вещи. На понимание этой особенности у человека уходят годы.

Разработчики утверждают, что нейросеть «Яндекс Браузера» справились за месяц. Также в китайском много омофонов — слов, звучащих одинаково, но пишущихся по‑разному и обладающих разным значением. Чтобы различать их, нейросети Браузера умеют учитывать контекст.

Фото: Яндекс

 1,547 Всего просмотров,  2 Просмотров за сегодня

 1,548 Всего просмотров,  3 Просмотров за сегодня

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...

 1,549 Всего просмотров,  4 Просмотров за сегодня