- Регистрация
- 17 Окт 2015
- Сообщения
- 11.606
- Репутация
- 4.228
- Реакции
- 15.355
VLOGGER: новый ИИ Google оживляет людей на фотографиях
19 марта, 2024Компания представила систему для мгновенного создания видео с говорящими людьми.
Google – одна из крупнейших технологических компаний в мире, основанная в 1998 году в США. Основной продукт компании – поисковая система Google, которая позволяет находить информацию в интернете. Компания также разрабатывает множество других продуктов, таких как электронная почта Gmail, видеохостинг YouTube, карты Google Maps и операционную систему Android для мобильных устройств. Google является одним из лидеров в области искусственного интеллекта и облачных вычислений. Компания занимает высокие позиции в рейтингах лучших работодателей в мире.
Google представила ИИ-модель VLOGGER, которая позволяет генерировать видеоролики с говорящими людьми на основе одного изображения человека и аудиофайла.
Новый метод стал возможен благодаря использованию генеративных диффузионных моделей, что отличает VLOGGER от предыдущих разработок. Метод не требует индивидуального обучения для каждого человека и способен работать без обнаружения и обрезки лиц, генерируя полные изображения, включая лицо и туловище, в различных сценариях.
- первый этап принимает в качестве входных данных форму аудиосигнала для создания промежуточных элементов управления движением тела, которые отвечают за взгляд, мимику и позу;
- второй этап представляет собой временную модель преобразования image-to-image, которая предсказывает дальнейшие движения тела для генерации соответствующих кадров. Чтобы привязать процесс к определенной личности, VLOGGER также использует эталонное изображение человека.
VLOGGER находит применение в ряде областей, включая редактирование видео и создание видео с говорящими людьми на основе одного входного изображения и аудио. Модель может использоваться для редактирования существующих видео, изменяя выражение лица субъекта, например, закрывая рот или глаза, а также для адаптации видео под новые аудиодорожки на разных языках, обеспечивая согласованность движения губ и лица с новым аудио.