Microsoft презентовала VASA-1: ИИ позволяет читать рэп даже Мони Лизе

Читати українською

Используя только одно фото и аудиофайл с записью речи, модель может создать видео

Читати українською
Microsoft и VASA-1
Microsoft презентовала VASA-1

Используя только одно фото и аудиофайл с записью речи, модель может создать видео

Компания Microsoft представила новую модель искусственного интеллекта (ИИ) под названием VASA-1. Она способна генерировать гиперреалистичные видео с говорящими людьми. Отныне, прочесть рэп смогла даже Мона Лиза.

Как сообщает Android, используя только одно фото и аудиофайл с записью речи, модель может создать видео, где губы человека на экране двигаются синхронно со звуком, а мимика и движения головы придают реалистичности.

Важно отметить, что технологический гигант не планирует выпускать VASA-1 в качестве продукта или API. Вместо этого его применение будет сосредоточено на создании реалистичных виртуальных персонажей.

Microsoft презентовала VASA-1: ИИ для создания гиперреалистичных видео с говорящими людьми 1

Что может VASA-1?

Это модель искусственного интеллекта, которая может генерировать видео продолжительностью до минуты, используя только одну фотографию и аудиофайл. ИИ может адаптировать движения губ и выражение лица к звуку, чтобы все выглядело естественно. Представленные образцы файлов показывают, что он может делать это поразительно эффективно, особенно с точки зрения синхронизации звука и изображения и адекватности эмоций, выражающих представленные персонажи. Исследователи Microsoft описали это как "широкий диапазон эмоций и выразительных нюансов лица и естественных движений головы".

Microsoft на своем сайте подробно описала работу разработанной модели и осветила ее возможности. Компания утверждает, что VASA-1 может производить видео 512 x 512 пикселей со скоростью до 40 кадров в секунду с минимальной задержкой запуска. Вот как модель AI работает на практике:

Кроме того, ИИ предлагает подробный контроль над различными аспектами видео, такими как направление, в котором повернуты глаза, расстояние головы, эмоции и другие. Благодаря этому пользователи могут адаптировать виртуальных персонажей к конкретным потребностям, например тренинговым, терапевтическим или профессиональным.

Модель искусственного интеллекта также могла создавать видео с использованием художественных фотографий (например, известной Моны Лизы), записей пения или языка на английском языке. Исследователи Microsoft отмечают, что способность к этим функциям не присутствовала в их данных, предполагая обучаемость самостоятельно.

Потенциал ИИ или возможность злоупотреблений?

Гиперреалистическое поколение видео реальных людей с любым звуком поражает (особенно с точки зрения того, насколько правильно они умеют выражать эмоции), но также вызывает ряд опасений относительно не этичных приложений, особенно в контексте создания дипфейков. По крайней мере, никто не поверит в рэп Моны Лизы: 

 

 

Поэтому Microsoft подчеркнула, что не намерена делать модель ИИ общедоступной, а хочет использовать ее для создания виртуальных интерактивных персонажей: аватаров для корпоративных приложений, интервьюеров ИИ или "сотрудников", ответственных за первоначальный отбор кандидатов, заключающихся в том, чтобы разгрузить персонал отдела кадров.

 Microsoft обновит меню "Пуск" в Windows 11

Microsoft может вскоре обновить меню "Пуск" в Windows 11. Эти утверждения основываются на изменениях, отмеченных в тестовых сборках операционной системы.

Согласно инсайдерам, обновление коснется страницы "Все программы" в меню "Пуск". Вместо обычного вертикального списка программ, пользователи могут увидеть сетку значков.

Подписывайтесь на наш Telegram-канал, чтобы не пропустить важные новости. Подписаться на канал в Viber можно здесь.

ЧИТАЙТЕ ТАКЖЕ:

Мы используем файлы cookie, чтобы обеспечить должную работу сайта, а контент и реклама отвечали Вашим интересам.