Демонстрації роботи моделі справляють враження, хоча іноді штучний інтелект помиляється
Компанія OpenAI, творець чату зі штучним інтелектом GhatGPT, створила власний сервіс генерації відео з тексту під назвою Sora. Головна відмінність Sora від аналогічних існуючих моделей полягає в тому, що вона генерує цілі відео відразу, замість того, щоб поєднувати їх покадрово. Поки що вона знаходиться у закритому доступі для обмеженого кола тестувальників.
OpenAI стверджує, що за допомогою короткого або докладного опису або нерухомого зображення Sora може генерувати сцени, схожі на фільм, з роздільною здатністю 1080p, з кількома персонажами, різними типами руху та фоновими деталями, пише The Guardian. В OpenAI підкреслили, що при генерації Sora враховує фізичні властивості об'єктів та їхню взаємодію один з одним у реальному світі. Це дозволяє створювати реалістичні відео з природними анімаціями. Ще Sora вміє заповнювати порожні кадри та розширювати вже існуючі відео.
"Sora має глибоке розуміння мови, що дозволяє їй точно інтерпретувати підказки та створювати переконливі символи, які виражають яскраві емоції. Модель розуміє не лише те, що запитав користувач у підказці, а й те, як ці речі існують у фізичному світі", - пише OpenAI у своєму блозі.
Sora може створювати відео в різних стилях (наприклад, фотореалістичне, анімаційне, чорно-біле) тривалістю до однієї хвилини набагато довше, ніж більшість аналогічних моделей. Ці відео зберігають розумну узгодженість, на них майже відсутні дивні нереалістичні деталі, які зазвичай створюють генеративні моделі: наприклад, об'єкти, що рухаються у фізично неможливих напрямках. Деякі з відео Sora, з гуманоїдним роботом, що стоїть на тлі міського пейзажу, або людиною, що йде засніженою стежкою, мають якість відеоігор.
Розробники зазначають, що поточна модель може завжди точно моделювати фізику складних сцен і неправильно інтерпретувати певні причинно-наслідкові взаємозв'язку. Наприклад, людина може відкусити печиво, але після цього на печиво може не залишитися сліду від укусу. Модель також може плутати просторові деталі підказки, наприклад, змішувати ліворуч і праворуч, мати проблеми з точним описом подій, що відбуваються з часом, наприклад, слідування певної траєкторії камери.
Компанія позиціонує Sora як попередній перегляд технології і мало говорить про те, які дані були використані для навчання моделі (за винятком твердження про ~10 000 годин високоякісного відео). Проте повідомлялося, що серед них були як загальнодоступні, так і авторські відео. На компанію кілька разів подавали до суду за порушення авторських прав за те, що її інструменти генеративного штучного інтелекту використовують гігантські обсяги матеріалів, витягнутих з Інтернету, і імітують зображення або тексти, що містяться в цих наборах даних.
Зараз нейромережа перебуває у стадії тестування і недоступна широкому загалу. Проте її вже тестують художники, дизайнери та режисери, які зможуть поділитися своїми відгуками із розробниками. Дати появи загальнодоступної версії поки що немає.
Також OpenAI утримується від того, щоб зробити Sora загальнодоступною. Обґрунтуванням цього є потенціал для зловживань - зловмисники мали б широке поле для цього.
"Ми залучатимемо політиків, викладачів та художників у всьому світі, щоб зрозуміти їхні проблеми та визначити позитивні варіанти використання цієї нової технології. Незважаючи на широкі дослідження та тестування, ми не можемо передбачити всі способи, якими люди будуть використовувати нашу технологію або можливі зловживання" , - пише OpenAI.
Підписуйтесь на наш Telegram-канал, щоб не пропустити важливих новин. За новинами в режимі онлайн прямо в месенджері слідкуйте на нашому Telegram-каналі Інформатор Live. Підписатися на канал у Viber можна тут.