Крымскотатарский и не только - в переводчике Google появятся 110 новых языков

Некоторые из этих языков являются одними из крупнейших мировых языков с более чем 100 миллионами носителей

Google
В Google Переводчики появятся 110 новых языков, включая крымскотатарский

Компания Google выполнила наибольшее расширение в истории своего сервиса перевода Google Translate, добавив 110 новых языков, включая крымскотатарский. Для этого использовали языковую модель искусственного интеллекта PaLM 2. Об этом 27 июня сообщили в пресс-службе Google.

Указывается, что в 2022 году компания Google добавила 24 новых языка, используя подход Zero-Shot Machine Translation, где модель машинного обучения учится переводить на другой язык, даже если не видит примера. Вместе с тем, добавление 110 новых языков  является самым большим расширением в истории Google Переводчика, ведь ими говорят более 614 миллионов носителей.

Мы постоянно внедряем новейшие технологии, чтобы больше людей имели доступ к этому инструменту: в 2022 году мы добавили 24 новых языка, используя подход Zero-Shot Machine Translation, где модель машинного обучения учится переводить на другой язык, даже если не видит примера. также анонсировали инициативу «1000 языков», предусматривающую создание моделей искусственного интеллекта, которые будут поддерживать 1 тысячу самых распространенных языков мира», - указывается в блоге Google.

Добавление 110 новых языков является наибольшим расширением в истории Google Переводчика. Ими говорят более 614 миллионов носителей, что открывает доступ к переводу для около 8% населения мира. Некоторые из этих языков являются одними из крупнейших мировых языков с более чем 100 миллионами носителей. На других языках говорят небольшие общины коренных народов, а некоторые почти не имеют носителей языка, но продолжаются активные усилия по их возрождению. Около четверти новых языков происходят из Африки, которая является нашим крупнейшим расширением африканских языков сегодня, в частности, фон, киконго, луо, га, сваты, венда и волоф.

Новые языки, которые будут поддерживаться в Переводчике Google

  • Афар - это тональный язык, на котором говорят в Джибуте, Эритрее и Эфиопии. Из всех языков, запущенных на этот раз, афар имела наибольший вклад сообщества волонтеров.
  • Кантонский язык уже давно является одним из самых запрашиваемых языков для Google Переводчика. Но есть определенные сложности, поскольку на письме она часто пересекается с мандаринским, что затрудняет поиск данных и обучение моделей.
  • Крымскотатарский язык – тюркский язык, родной язык крымских татар. Крымскотатарский язык относится к языкам, требующим дополнительной защиты по классификации UNESCO. В январе 2023 года в Украине была создана Национальная комиссия по вопросам крымскотатарского языка, которая должна ее защищать.
  • Минская – это кельтский язык острова Мэн. Она почти исчезла со смертью последнего носителя языка в 1974 году. Но благодаря движению по возрождению языка на острове, сейчас на нем говорят тысячи людей.
  • Нко – это стандартизированная форма западноафриканских языков мандинка, объединяющая много диалектов в один общий язык. Ее уникальный алфавит был изобретен в 1949 году, и она имеет активное исследовательское сообщество, разрабатывающее для него ресурсы и технологии.
  • Панджаби (Шахмукхи) – это разновидность панджаби, которая пишется персидско-арабским письмом (шахмукхи), и является самым распространенным языком в Пакистане.
  • Тамазигский язык (амазигский) – это берберский язык, на котором говорят в Северной Африке. Хотя существует много диалектов, письменная форма, как правило, взаимно понятна. Она пишется латинским письмом и тифинагом, оба из которых поддерживает Google Переводчик.
  • Ток-писин – это креольский язык на основе английского и язык межнационального общения Папуа-Новой Гвинеи. Если вы говорите по-английски, попробуйте перевести на ток-писин – возможно, вы сможете понять значение.

Как Google выбирает новые языки

Как отмечают в Google, существует много факторов, которые учитывают, добавляя новые языки для переводчика. Их подход состоит в том, чтобы придавать приоритет наиболее употребляемым разновидностям каждого языка.

"Например, ромский язык имеет много диалектов по всей Европе. Наши модели создают текст, наиболее близкий к южно-влахской ромской, широко используемой в интернете разновидности. Но он также содержит элементы из других диалектов, таких как северо-влахская и балканская ромская ", – говорится в блоге Google.

Отмечается, что PaLM 2 является ключевым элементом головоломки, помогающие «Переводчику» эффективнее изучать языки, тесно связаны друг с другом, в частности языки, близкие к хинди, например авадхи и марвади, и французские креольские, такие как сейшельский креольский и маврикийский креольский. В компании обещают, что в будущем сервис будет поддерживать еще больше речевых разновидностей и правил правописания.

Подписывайтесь на наш Telegram-канал, чтобы не пропустить важные новости. Подписаться на канал в Viber можно здесь.

ЧИТАЙТЕ ТАКЖЕ:

Главная Актуально Informator.ua Україна на часі Youtube