Яндекс представил бета-версию нейросети YandexART (Vi), которая может создавать короткие видеоролики длиной в пять секунд. Эта модель умеет воспроизводить плавные движения объектов в кадре: как бежит собака, падает лист или взрываются фейерверки. Нейросеть доступна для всех в приложении «Шедеврум», сообщили в компании.
Ранее, в августе 2023 года, была представлена предыдущая версия этой модели, которая генерировала анимации по текстовому описанию. Однако она создавала впечатление движения камеры, а не объекта, которые могли значительно меняться от кадра к кадру. Новая версия YandexART (Vi) научилась делать более реалистичные и плавные движения объектов, сохраняя их связь между кадрами, благодаря чему видео выглядит цельным и естественным. Для этого нейросеть обучили на видеороликах с движущимися объектами, такими как едущие машины или крадущиеся коты.
Как это работает? Нейросеть получает от пользователя текстовое описание того, что должно происходить в кадре (например, «Носорог танцует хип-хоп в сумрачном лесу»), создаёт начальную картинку, а затем превращает её в плавное видео, постепенно добавляя новые кадры.