Используя только одно фото и аудиофайл с записью речи, модель может создать видео
Компания Microsoft представила новую модель искусственного интеллекта (ИИ) под названием VASA-1. Она способна генерировать гиперреалистичные видео с говорящими людьми. Отныне, прочесть рэп смогла даже Мона Лиза.
Как сообщает Android, используя только одно фото и аудиофайл с записью речи, модель может создать видео, где губы человека на экране двигаются синхронно со звуком, а мимика и движения головы придают реалистичности.
Важно отметить, что технологический гигант не планирует выпускать VASA-1 в качестве продукта или API. Вместо этого его применение будет сосредоточено на создании реалистичных виртуальных персонажей.
Это модель искусственного интеллекта, которая может генерировать видео продолжительностью до минуты, используя только одну фотографию и аудиофайл. ИИ может адаптировать движения губ и выражение лица к звуку, чтобы все выглядело естественно. Представленные образцы файлов показывают, что он может делать это поразительно эффективно, особенно с точки зрения синхронизации звука и изображения и адекватности эмоций, выражающих представленные персонажи. Исследователи Microsoft описали это как "широкий диапазон эмоций и выразительных нюансов лица и естественных движений головы".
Microsoft на своем сайте подробно описала работу разработанной модели и осветила ее возможности. Компания утверждает, что VASA-1 может производить видео 512 x 512 пикселей со скоростью до 40 кадров в секунду с минимальной задержкой запуска. Вот как модель AI работает на практике:
Кроме того, ИИ предлагает подробный контроль над различными аспектами видео, такими как направление, в котором повернуты глаза, расстояние головы, эмоции и другие. Благодаря этому пользователи могут адаптировать виртуальных персонажей к конкретным потребностям, например тренинговым, терапевтическим или профессиональным.
Модель искусственного интеллекта также могла создавать видео с использованием художественных фотографий (например, известной Моны Лизы), записей пения или языка на английском языке. Исследователи Microsoft отмечают, что способность к этим функциям не присутствовала в их данных, предполагая обучаемость самостоятельно.
Гиперреалистическое поколение видео реальных людей с любым звуком поражает (особенно с точки зрения того, насколько правильно они умеют выражать эмоции), но также вызывает ряд опасений относительно не этичных приложений, особенно в контексте создания дипфейков. По крайней мере, никто не поверит в рэп Моны Лизы:
Поэтому Microsoft подчеркнула, что не намерена делать модель ИИ общедоступной, а хочет использовать ее для создания виртуальных интерактивных персонажей: аватаров для корпоративных приложений, интервьюеров ИИ или "сотрудников", ответственных за первоначальный отбор кандидатов, заключающихся в том, чтобы разгрузить персонал отдела кадров.
Microsoft может вскоре обновить меню "Пуск" в Windows 11. Эти утверждения основываются на изменениях, отмеченных в тестовых сборках операционной системы.
Согласно инсайдерам, обновление коснется страницы "Все программы" в меню "Пуск". Вместо обычного вертикального списка программ, пользователи могут увидеть сетку значков.
Подписывайтесь на наш Telegram-канал, чтобы не пропустить важные новости. Подписаться на канал в Viber можно здесь.