Microsoft презентувала VASA-1: ШІ дозволяє читати реп навіть Моні Лізі

Читать на русском

Використовуючи лише одне фото та аудіофайл із записом мови, модель може створити відео

Читать на русском
Microsoft і VASA-1
Microsoft презентувала VASA-1

Використовуючи лише одне фото та аудіофайл із записом мови, модель може створити відео

Компанія Microsoft представила нову модель штучного інтелекту (ШІ) під назвою VASA-1. Вона здатна генерувати гіперреалістичні відео з людьми, що говорять. Відтепер, прочитати реп змогла навіть Мона Ліза.

Як повідомляє Android, використовуючи лише одне фото та аудіофайл із записом мови, модель може створити відео, де губи людини на екрані рухаються синхронно зі звуком, а міміка та рухи голови надають реалістичності.

Важливо зазначити, що технологічний гігант не планує випускати VASA-1 як продукт чи API. Замість цього, його застосування буде зосереджено на створенні реалістичних віртуальних персонажів.

Microsoft презентувала VASA-1: ШІ для створення гіперреалістичних відео з людьми, що говорять 1

Що може VASA-1?

Це модель штучного інтелекту, яка має можливість генерувати відео тривалістю до хвилини, використовуючи лише одну фотографію та аудіофайл. ШІ може адаптувати рухи губ і вираз обличчя до звуку, щоб все виглядало природно. Надані зразки файлів показують, що він може робити це вражаюче ефективно, особливо з точки зору синхронізації звуку та зображення та адекватності емоцій, які виражають представлені персонажі. Дослідники Microsoft описали це як "широкий діапазон емоцій і виразних нюансів обличчя та природних рухів голови".

Microsoft на своєму сайті детально описала роботу розробленої моделі та висвітлила її можливості. Компанія стверджує, що VASA-1 може створювати відео 512 x 512 пікселів зі швидкістю до 40 кадрів на секунду з мінімальною затримкою запуску. Ось як модель AI працює на практиці:

 

 

Крім того, ШІ пропонує детальний контроль над різними аспектами відео, такими як напрямок, у якому повернуті очі, відстань голови, емоції та інші. Завдяки цьому користувачі можуть адаптувати віртуальних персонажів до конкретних потреб, наприклад, тренінгових, терапевтичних або професійних.

Модель штучного інтелекту також могла створювати відео з використанням художніх фотографій (наприклад, відомої Мони Лізи), записів співу чи мови не англійською мовою. Дослідники Microsoft зазначають, що здатність до цих функцій не була присутня в їхніх даних, припускаючи здатність до навчання самостійно.

Потенціал ШІ чи можливість для зловживань?

Гіперреалістична генерація відео реальних людей з будь-яким звуком вражає (особливо з точки зору того, наскільки правильно вони вміють виражати емоції), але також викликає ряд побоювань щодо неетичних додатків, особливо в контексті створення дипфейків. Принаймні ніхто не повірить у реп Мони Лізи:

 

 

Тому Microsoft підкреслила, що не має наміру робити модель ШІ загальнодоступною, а хоче використовувати її для створення віртуальних інтерактивних персонажів: аватарів для корпоративних додатків, інтерв’юерів ШІ або "співробітників", відповідальних за початковий відбір кандидатів, які полягає в тому, щоб розвантажити персонал відділу кадрів.

 Microsoft оновить меню "Пуск" у Windows 11

Microsoft може незабаром оновити меню "Пуск" у Windows 11. Ці твердження ґрунтуються на змінах, помічених у тестових збірках операційної системи.

Згідно з інсайдерами, оновлення торкнеться сторінки "Усі програми" в меню "Пуск". Замість звичного вертикального списку програм, користувачі можуть побачити сітку піктограм.

Підписуйтесь на наш Telegram-канал, щоб не пропустити важливих новин. Підписатися на канал у Viber можна тут.

ЧИТАЙТЕ ТАКОЖ:

Ми використовуємо файли cookie, щоб забезпечити належну роботу сайту, а вміст та реклама відповідали Вашим інтересам.