Facebook опубликовал новое исследование гиперреалистичных виртуальных аватаров

4 сент. 2019 г.

Facebook опубликовал новое исследование гиперреалистичных виртуальных аватаров

Facebook Reality Labs, исследовательская группа AR / VR компании Facebook, опубликовала подробное исследование метода создания гиперреалистичных виртуальных аватаров в реальном времени, подробно остановившись на своём предыдущем проекте под названием «Codec Avatars».

Facebook Reality Labs создала систему, способную анимировать виртуальные аватары в режиме реального времени с крайне высокой точностью благодаря компактному оборудованию. В устройство помещены три камеры, которые фиксируют глаза и рот пользователя. Благодаря ним система способна более точно отображать мимику и жесты конкретного человека.

Смысл исследования заключается не только в прикреплении камер к гарнитуре, но и в так называемой «технической магии», лежащей в основе использования входящих изображений для виртуального изображения пользователя.

Разработка в значительной степени опирается на машинное обучение и зрение. Один из создателей говорит: «Наша система работает в режиме реального времени и обрабатывает широкий спектр выражений лица, включая надувание щёк, покусывание губ, движения языка; отслеживает такие мелкие детали, как, к примеру, морщинки, которые довольно трудно точно воспроизвести с помощью схожих технологий».

Facebook Reality Labs опубликовала видео-резюме технологических возможностей разработки для презентации на SIGGRAPH 2019:

Команда также опубликовала всю проделанную исследовательскую работу, в которой более подробно описываются методология и вычисления. Работа под названием «VR Facial Animation via Multiview Image Translation» была опубликована в ACM Transactionson Graphics, в журнале, известном как «главное рецензированное научное издание о графике». Авторами статьи выступают Ши-Эн Вэй (Shih-En Wei), Джейсон Сарагих (Jason Saragih), Томас Саймон (Tomas Simon), Адам У. Харли (Adam W. Harley), Стивен Ломбарди (Stephen Lombardi), Михал Пердок (Michal Perdoch), Александр Хайпс (Alexander Hypes), Давэй Ван (Dawei Wang), Эрнан Бадино (Hernan Badino), Язер Шейх (Yaser Sheikh).

В работе объясняется, как в рамках проекта было создано две отдельные экспериментальные гарнитуры: "обучающая" и "отслеживающая".

"Обучающая" гарнитура получилась более громоздкой. Она оснащена девятью камерами, которые позволяют охватывать более широкий спектр эмоций и взглядов. Это облегчает задачу поиска «соответствия» между входными изображениями и ранее полученными цифровыми "сканами" пользователя (опираясь на то, какие части входных изображений соответствуют определённым частям аватара). В докладе говорится, что этот процесс «автоматически осуществляется путем самостоятельного перемещения изображений разного вида, то есть, мануальные примечания и взаимно однозначные отображения между доменами не потребуются».

После установления соответствия можно использовать более компактную гарнитуру – "отслеживающую". Три камеры схожи с тремя из девяти, представленных в "обучающей" гарнитуре. Возможности этого "трио" более понятны благодаря данным, собранным с "обучающей" гарнитуры. Это и позволяет входным данным точно управлять анимацией аватара.

В научной работе основное внимание уделяется точности системы. Предыдущие методы создают реалистичный выходной материал, но точность настоящих эмоций пользователя в сравнении с их представлением в ключевых зонах нарушается. Особенно, когда речь идёт о сложных эмоциях и взаимосвязи между тем, что делают глаза и рот пользователя.

Проделанная Facebook Reality Labs особенно впечатляет, когда вы возвращаетесь к осознанию того, что происходит на самом деле: есть человек, лицо которого в значительной степени скрыто гарнитурой, и фото его лица вблизи используются, чтобы восстановить эмоции и мимику.

Каким бы впечатляющим ни был этот подход, всё же есть некоторые серьёзные препятствия, мешающие внедрению и популяризации разработки. Это касается как детального предварительного сканирования пользователя, так и необходимости использования "обучающей" гарнитуры. Это скорее требует чего-то схожего с «центрами сканирования», куда пользователи могут пойти, чтобы отсканировать и обучить свой аватар (также можно захватить туда с собой HRTF).

Пока VR не займёт значительную часть жизни общества, став одним из средств коммуникации, маловероятно, что такого рода центры будут жизнеспособны.

Тем не менее, может случится так, что передовые технологии распознавания и постоянные улучшения в автоматизированной технологии соответствия в скором времени будут доступны для домашнего использования.