Сможет ли Kling AI бросить вызов Sora от OpenAI и добиться успеха?

Рынок генерации видео с использованием искусственного интеллекта оценивается в $554.9 миллиона в 2023 году с прогнозом роста до 2030 года.

июль 1, 2024 - 10:59
июль 18, 2024 - 09:46
Сможет ли Kling AI бросить вызов Sora от OpenAI и добиться успеха?
Видеотехнологии, генерируемые искусственным интеллектом, набирают обороты.

Видеотехнологии, генерируемые искусственным интеллектом, набирают обороты. Недавно компания Kuaishou Technology из Китая представила Kling AI, новую модель преобразования текста в видео, конкурирующую на рынке, впервые разработанную Sora от OpenAI.

Kling AI работает на китайском языке и может создавать двухминутные видеоролики со скоростью 30 кадров в секунду и разрешением 1080p. Он использует технологию трехмерной реконструкции лица и тела с помощью 3D VAE, что позволяет реалистично моделировать движения.

Модель объединяет другие разработки, такие как Sora, Google Veo, Runway Gen-3 Alpha и Haiper AI, что позволяет быстро создавать подробные видеоролики.

Взгляд на Kling AI: особенности и возможности

В настоящее время Kling AI недоступен для публичного выпуска, но к нему можно получить доступ через приложение Kwaiying (KwaiCut) в качестве демо-версии, требуя для регистрации китайского номера телефона.

Kling AI способен создавать видеоролики продолжительностью до двух минут и преобразовывать входные изображения в пятисекундные видеоролики. Функция одного щелчка мыши может продлить эти видео еще на 4,5 секунды, что позволяет пользователям эффективно анимировать статические изображения, например, добавлять солнцезащитные очки к Моне Лизе, как продемонстрировано Kuaishou Technology.

В модели используются передовые технологии, включая архитектуру диффузионного трансформатора и 3D-реконструкцию лица и тела, для создания высококачественных реалистичных видеороликов, имитирующих естественные движения, такие как пение и танцы, что повышает общее качество анимации.

Сможет ли Kling AI превзойти Sora на рынке преобразования текста в видео?

Главный вопрос, связанный с Kling AI, заключается в том, сможет ли он превзойти Sora в качестве лидера в области создания видео с помощью ИИ.

Когда в начале этого года было объявлено о Sora, ее влияние было значительным из-за ее высококачественных результатов, несмотря на то, что она ограничивалась рекламными демо-версиями OpenAI без публичного выпуска.

Kling AI, хотя и впечатляет, сталкивается с такими препятствиями, как необходимость переводить подсказки на китайский язык и использовать китайский номер мобильного телефона.

Однако у Клингского ИИ есть потенциал, чтобы конкурировать с Сорой. Он может генерировать видео продолжительностью до 2 минут по сравнению с лимитом Sora в 1 минуту. Томас Рэндалл из исследовательской группы Info-Tech отмечает преимущество Куайшоу благодаря большой видеоплатформе и доступу к обширным данным для обучения Клингского ИИ.

Тем не менее, Рэндалл считает, что у OpenAI нет причин для беспокойства, особенно за пределами Китая, где Kling AI лучше всего работает с подсказками на китайском языке и в настоящее время создает только 5-секундные видеоролики. Заявление о более длинных видеороликах (до двух минут) не является достаточно существенным конкурентным преимуществом, и OpenAI потенциально может расширить возможности Sora в будущем.

Kling AI vs Sora: сравнение видеовозможностей

И Kling AI, и Sora способны создавать очень реалистичные видеоролики, каждое из которых имеет разные качества. Клингский искусственный интеллект имеет тенденцию генерировать изображения, которые кажутся более реалистичными, в то время как стиль Соры склоняется к яркому контенту, который иногда может иметь синтетический характер.

Заслуживающие внимания примеры Kling AI включают видеоролики, изображающие блюдо с лапшой, девушку, бегущую по темному туннелю, и кадр с изображением велосипедиста с точки зрения точки зрения. Впечатляющие результаты OpenAI включают видеоролики с изображением женщины в красном, сцен Токио в снегу и игривых щенков в заснеженных условиях. Клип «Дама в красном» часто считается одним из лучших видеороликов, созданных искусственным интеллектом, благодаря своему стилю, хотя примеры Kling AI отличаются менее синтетическим видом.

Kling AI выделяется своей способностью убедительно изображать движение, что особенно хорошо продемонстрировано на таких примерах, как блюдо с лапшой и девушка, бегущая в темном туннеле. Хотя OpenAI также добилась качественных результатов, некоторые видеоролики, такие как прогулка в клипе «дама в красном» и физика щенков, демонстрируют легкие неестественные движения.

Дополнительные приложения Kling AI

Помимо вышеупомянутых примеров, Kling AI продемонстрировал свои возможности в различных других сценариях:

Годзилла против Кинг-Конга: искусственный интеллект Клинга использовался для создания трейлеров к фильмам, в которых Годзилла и Кинг-Конг показаны в сценах конфронтации, происходящих в густонаселенной городской среде.

Рекламный ролик пива Madmax: Еще одно примечательное приложение включает в себя созданное искусственным интеллектом видео для рекламы пива на тему «Безумный Макс», демонстрирующее способность Kling AI эффективно рассказывать истории в короткие сроки.

Анимированный мем «Отвлеченный парень». Пользователи творчески использовали Kling AI для анимации популярного мема «Отвлеченный парень», хотя и с некоторыми неестественными движениями, сохраняя при этом внешний вид высокого качества.

Белка ест клубнику: искусственный интеллект Kling использовался для создания естественно выглядящего видеоролика, на котором белка ест клубнику, что подчеркивает ее способность воспроизводить реалистичное поведение животных.

Поворот головы Илона Маска. Пример включает анимацию статического изображения Илона Маска, где ИИ Клинга сгенерировал дополнительные детали, чтобы обеспечить реалистичное движение головы.

Выдра плещется в воде: Kling AI также был применен для создания короткого видеоклипа, изображающего выдру, плещущуюся в воде, демонстрируя реалистичное движение, включая брызги воды и усы выдры.

Роль Kling AI в создании видео с помощью ИИ

В настоящее время глобальный рынок видеогенераторов с искусственным интеллектом оценивается компанией Grandview Research в 554,9 миллиона долларов в 2023 году, при этом прогнозируемые совокупные ежегодные темпы роста составят 19,9% с 2024 по 2030 год.

Несколько провайдеров предлагают модели преобразования текста в видео, в том числе OpenAI Sora, Google Veo, Runway Gen-3 Alpha, Luma AI, Haiper AI и Kling AI. Важно отметить, что Sora, Veo, Gen-3 Alpha и Kling AI еще не были широко представлены публике, но входят в число моделей, вызывающих значительный интерес рынка.