Демонстрации работы модели производят впечатление, хотя иногда искусственный интеллект ошибается
Компания OpenAI, создатель чата с искусственным интеллектом GhatGPT, создала собственный сервис генерации видео из текста под названием Sora. Главное отличие Sora от аналогичных существующих моделей состоит в том, что она генерирует целые видео сразу, вместо того, чтобы совмещать их покадрово. Пока она находится в закрытом доступе для ограниченного круга тестировщиков.
OpenAI утверждает, что с помощью краткого или подробного описания или неподвижного изображения Sora может генерировать сцены, похожие на фильм с разрешением 1080p, с несколькими персонажами, разными типами движения и фоновыми деталями, пишет The Guardian. В OpenAI подчеркнули, что при генерации Sora учитывает физические свойства объектов и взаимодействие друг с другом в реальном мире. Это позволяет создавать реалистичные видео с естественными анимациями. Еще Sora умеет заполнять пустые кадры и расширять существующие видео.
"Sora имеет глубокое понимание языка, что позволяет ему точно интерпретировать подсказки и создавать убедительные символы, выражающие яркие эмоции. Модель понимает не только то, что спросил пользователь в подсказке, но и то, как эти вещи существуют в физическом мире", - пишет OpenAI в своем блоге.
Sora может создавать видео в разных стилях (например, фотореалистичное, анимационное, черно-белое) продолжительностью до одной минуты гораздо дольше, чем большинство аналогичных моделей. Эти видео сохраняют разумную согласованность, на них почти отсутствуют странные нереалистичные детали, которые обычно создают генеративные модели: например, объекты, движущиеся в физически невозможных направлениях. Некоторые из видео Sora, с гуманоидным роботом, стоящим на фоне городского пейзажа, или человеком, идущим по заснеженной тропе, имеют качество видеоигр.
Разработчики отмечают, что текущая модель может всегда точно моделировать физику сложных сцен и неправильно интерпретировать определенные причинно-следственные взаимосвязи. К примеру, человек может откусить печенье, но после этого на печенье может не остаться след от укуса. Модель также может путать пространственные детали подсказки, например, путать право и лево, иметь проблемы с точным описанием происходящего во времени, например, следование определенной траектории камеры.
Компания позиционирует Sora как предварительный просмотр технологии и мало говорит о том, какие данные были использованы для обучения модели (за исключением утверждения о ~10 000 часов высококачественного видео). Однако сообщалось, что среди них были как общедоступные, так и авторские видео. На компанию несколько раз подавали в суд за нарушение авторских прав за то, что ее инструменты генеративного искусственного интеллекта используют гигантские объемы извлеченных из Интернета материалов и имитируют изображения или тексты, содержащиеся в этих наборах данных.
Сейчас нейросеть находится в стадии тестирования и недоступна широкой публике. Однако ее уже тестируют художники, дизайнеры и режиссеры, которые смогут поделиться своими отзывами с разработчиками. Даты появления общедоступной версии пока нет.
Также OpenAI воздерживается от того, чтобы сделать Sora общедоступной. Обоснованием этого потенциал для злоупотреблений - злоумышленники имели бы обширное поле для этого.
"Мы будем привлекать политиков, преподавателей и художников во всем мире, чтобы понять их проблемы и определить положительные варианты использования этой новой технологии. Несмотря на широкие исследования и тестирования, мы не можем предусмотреть все способы, которыми люди будут использовать нашу технологию или возможные злоупотребления", - пишет OpenAI.
Подписывайтесь на наш Telegram-канал, чтобы не пропустить важные новости. За новостями в режиме онлайн прямо в мессенджере следите на нашем Telegram-канале Информатор Live. Подписаться на канал в Viber можно здесь.