Sora — новая нейросеть от OpenAI: как работает, функции
Компания OpenAI, разработчик ChatGPT, представила нейросеть Sora — модель способна генерировать короткие видеоролики по текстовым запросам.
Стильная женщина идет по токийской улице, залитой теплым светящимся неоновым светом, с анимированными городскими вывесками. На ней черная кожаная куртка, длинное красное платье, черные сапоги и черная сумочка. На ней солнцезащитные очки и красная помада. Она идет уверенно и непринужденно. Улица влажная от дождя, дорога отражает разноцветные огни. Многие пешеходы прогуливаются.
текстовый запрос Sora для создания ролика OpenAI Sora — City Woman
- В OpenAI рассказали, что Sora может создавать ролики продолжительностью до минуты. Причем это могут быть как реалистичные сцены — с людьми и животными, так и фантастические сцены, например с бродящими по снежному полю мамонтами или китами, плывущими по воздуху среди зданий.
- Помимо создания полноценных видео, Sora способна генерировать ролики из статичных изображений, дополнять их необходимыми кадрами и склеивать два видео в одно.
- TechCrunch пишет, что нейросеть умеет воспроизводить игровые миры: один из сотрудников OpenAI создал короткую симуляцию геймплея Minecraft — с реалистичным интерфейсом.
При этом в OpenAI отмечают, что у нынешней версии Sora есть «слабые места»: в частности, нейросеть плохо работает с причинно-следственными связями. Например, в ролике, где человек ест печенье, на самом печенье не остается следов от укусов. А на видео, где бабушка задувает свечи, они продолжают гореть.
Кроме того, пользователи соцсетей, просматривая ролики под авторством Sora, заметили, что нейросети пока не удается мебель: пластиковый стул на видео почему-то стал «жидким».
Когда Sora появится в открытом доступе
На данный момент доступ к Sora предоставили ряду художников, дизайнеров и режиссеров — чтобы получить обратную связь и усовершенствовать нейросеть, а также экспертам по кибербезопасности — для оценки потенциальных угроз и рисков. В OpenAI заявили, что занимаются разработкой инструментов, которые помогут определить, сгенерировано ли видео нейросетью.
Когда Sora появится в общем доступе — неизвестно. Но пользователи уже активно постят в соцсетях ролики, созданные и опубликованные сотрудниками OpenAI, и обсуждают, как Sora может изменить индустрию видеоконтента.
Первые реакции пользователей на нейросеть Sora
Ребята, я в шоке! Посмотрите, какое качество. Бегущие мамонты, съемки с дрона, толпы людей, видно каждую чешуйку на коже хамелеона и каждую снежинку на носу собаки! Теперь фантазии о том, что в будущем контент на стриминговых сервисах будет создаваться персонально для пользователя, исходя из его предпочтений и цифрового профиля, уже не кажутся такими нереальными.
Telegram-канал @JimmyNeiron
Это замена 90% сотрудников в Голливуде. Скоро каждый будет сам себе Стивеном Спилбергом.
пользователь Cervantes6785 в сообществеr/Screenwriting Reddit
Какими бы впечатляющими ни были примеры [опубликованные OpenAI], без сомнения, они были отобраны специально, чтобы показать Sora в лучшем виде. Без дополнительной информации трудно понять, насколько качественно работает модель. Это неидеально. В видео из Токио автомобили слева выглядят меньше, чем люди, идущие рядом с ними. Автомобили также появляются между ветвями деревьев.
обзор MIT Technology Review
С технической точки зрения это кажется значительным скачком вперед. Но есть и вторая сторона медали: возможности Sora позволят огромному числу людей создавать крайне реалистичное видео и неправомерно его использовать.
Сэм Грегори
глава правозащитной организации Witness
Выглядит как полезный инструмент для людей, работающих в креативных индустриях. Эта технология может привести к снижению затрат на производство фильмов и значительному расширению возможностей.
пользователь daronjay в сообществе r/Screenwriting Reddit
Какие еще нейросети способны генерировать видео
- Make-A-Video. В сентябре 2022 года Meta* представила нейросеть Make-A-Video, которая способна создавать видеоролики продолжительностью не более 5 секунд. В видео, опубликованных Meta*, сгенерированные объекты — нечеткие, анимация — резкая, а качество — низкое. Доступ к нейросети пока не открыли.
- Imagen Video. В октябре 2022-го Google показала нейросеть, которая генерирует видео в HD-качестве по текстовому описанию. Максимальная продолжительность — 3 секунды. Ролики авторства Imagen Video неидеальны, считают пользователи Сети: на них много
артефактов ишумов . В феврале 2024-го Google представил Imagen 2 — обновленную модель, которая, по словам разработчиков, может генерировать видео в высоком качестве и без артефактов. Нейросеть доступна в чат-боте Bard и на платформе ImageFX.
- Runway Gen-2. В 2023 году стартап Runway Research запустил нейросеть Gen-2, способную создавать реалистичные видеоролики по текстовому описанию в любом возможном стиле. Тестовые видео, по оценкам экспертов, «по качеству почти не уступают анимации крупных киностудий», однако длительность генерируемых роликов не превышает 4 секунд.
*Meta признана в РФ экстремистской организацией и запрещена.
Фото обложки: OpenAI Sora / YouTube