Некоторые из этих языков являются одними из крупнейших мировых языков с более чем 100 миллионами носителей
Компания Google выполнила наибольшее расширение в истории своего сервиса перевода Google Translate, добавив 110 новых языков, включая крымскотатарский. Для этого использовали языковую модель искусственного интеллекта PaLM 2. Об этом 27 июня сообщили в пресс-службе Google.
Указывается, что в 2022 году компания Google добавила 24 новых языка, используя подход Zero-Shot Machine Translation, где модель машинного обучения учится переводить на другой язык, даже если не видит примера. Вместе с тем, добавление 110 новых языков является самым большим расширением в истории Google Переводчика, ведь ими говорят более 614 миллионов носителей.
Мы постоянно внедряем новейшие технологии, чтобы больше людей имели доступ к этому инструменту: в 2022 году мы добавили 24 новых языка, используя подход Zero-Shot Machine Translation, где модель машинного обучения учится переводить на другой язык, даже если не видит примера. также анонсировали инициативу «1000 языков», предусматривающую создание моделей искусственного интеллекта, которые будут поддерживать 1 тысячу самых распространенных языков мира», - указывается в блоге Google.
Добавление 110 новых языков является наибольшим расширением в истории Google Переводчика. Ими говорят более 614 миллионов носителей, что открывает доступ к переводу для около 8% населения мира. Некоторые из этих языков являются одними из крупнейших мировых языков с более чем 100 миллионами носителей. На других языках говорят небольшие общины коренных народов, а некоторые почти не имеют носителей языка, но продолжаются активные усилия по их возрождению. Около четверти новых языков происходят из Африки, которая является нашим крупнейшим расширением африканских языков сегодня, в частности, фон, киконго, луо, га, сваты, венда и волоф.
Как отмечают в Google, существует много факторов, которые учитывают, добавляя новые языки для переводчика. Их подход состоит в том, чтобы придавать приоритет наиболее употребляемым разновидностям каждого языка.
"Например, ромский язык имеет много диалектов по всей Европе. Наши модели создают текст, наиболее близкий к южно-влахской ромской, широко используемой в интернете разновидности. Но он также содержит элементы из других диалектов, таких как северо-влахская и балканская ромская ", – говорится в блоге Google.
Отмечается, что PaLM 2 является ключевым элементом головоломки, помогающие «Переводчику» эффективнее изучать языки, тесно связаны друг с другом, в частности языки, близкие к хинди, например авадхи и марвади, и французские креольские, такие как сейшельский креольский и маврикийский креольский. В компании обещают, что в будущем сервис будет поддерживать еще больше речевых разновидностей и правил правописания.
Подписывайтесь на наш Telegram-канал, чтобы не пропустить важные новости. Подписаться на канал в Viber можно здесь.