Вскоре интернет-пользователи смогут встречаться друг с другом в киберпространстве в виде анимированных 3D-аватаров. Исследователи из ETH Zurich разработали новые алгоритмы для более простого создания виртуальных людей.
В наши дни люди все чаще смотрят в свои экраны, особенно с началом пандемии коронавируса. Конференции, встречи и обсуждения с коллегами по работе проходят через видеозвонки. Если крупные технологические компании добьются своего, такие встречи станут захватывающим опытом в так называемой метавселенной уже в следующем году благодаря 3D-очкам и специализированным компьютерным программам.
Ключом к обеспечению естественного взаимодействия с пользователем в приложениях VR и AR является создание так называемых аватаров, которые представляют собой динамические изображения людей, сгенерированные компьютером. Чем реалистичнее внешний вид и поведение аватаров, тем больше вероятность того, что люди получат ощущение реального социального взаимодействия.
Однако моделирование человека в деталях и в движении — задача, которая по-прежнему ставит перед разработчиками этих приложений. Современные графические программы уже могут создавать фотореалистичные статические аватары. Но, скажем, чтобы оживить улыбающееся лицо, графические дизайнеры должны вручную редактировать почти каждое изображение на компьютере, чтобы исправить такие нюансы, как морщины и тени.
Исследователи под руководством Отмара Хиллигеса, профессора компьютерных наук в ETH Zurich, продемонстрировали, как это сделать проще, на Международной конференции по компьютерному зрениюcall_made в октябре 2021 года. Вместо моделирования каждой мельчайшей детали они используют интеллектуальные алгоритмы , которые учатся автоматически отображать анимированные аватары . во всех мыслимых позах, наблюдая за 3D-изображениями людей всего в нескольких позах.
Компьютерная модель
Компьютерные программы, использующие искусственный интеллект для создания реалистичных виртуальных людей, существуют всего несколько лет. Эти программы учатся реалистично изображать различные положения тела, используя 3D-сканы реального человека, которые предварительно записываются с помощью сложной системы камер.
Алгоритмы ИИ обрабатывают сканы, измеряя бесчисленное количество точек внутри и снаружи тела человека, чтобы определить его контуры в виде математической функции. Таким образом, алгоритмы строят шаблонную форму человека. Для перемещения аватара в новые позы алгоритмы учатся запоминать путь от движущейся позы обратно к шаблону.
Однако для экстремальных поз за пределами известного репертуара движений такие алгоритмы не обладают знаниями и предсказывают неверные пути, что приводит к явно видимым артефактам: руки могут быть оторваны от тела или суставы расположены не в том месте. Вот почему современные модели тренируются в как можно большем количестве различных поз, что влечет за собой огромные усилия для 3D-сканирования и требует огромных вычислительных мощностей.
На сегодняшний день аватары с ИИ вряд ли применимы, особенно для интерактивных приложений. «Нецелесообразно охватить весь возможный репертуар движений», — говорит Сюй Чен, аспирант и ведущий автор исследования.
Новый метод, разработанный Ченом, использует противоположный подход: модель вычисляет путь от шаблона до движущихся поз. Поскольку это означает, что расчеты всегда имеют одну и ту же начальную точку, это позволяет интеллектуальным алгоритмам лучше научиться обобщать движения.
Действительно, впервые такая компьютерная модель позволяет легко отображать новые паттерны движения. Он может даже производить акробатические движения, такие как сальто или задний мост.
Любое количество новых лиц только с одного изображения
Новые аватары в полный рост еще не могут быть персонализированы; представления ограничены человеком, отсканированным на исходных 3D-изображениях. Чен и его коллеги хотели бы доработать свою компьютерную модель, чтобы она могла создавать новые личности по желанию.
Марсель Бюлер, еще один аспирант в группе Хиллиге, уже нашел решение для персонализации лиц аватаров и изменения их по желанию. Как и Чен в своих моделях в полный рост, Бюлер использовал интеллектуальные алгоритмы для создания новых анимированных лиц из комбинации 3D-модели лица и большой коллекции портретных фотографий.
В то время как предыдущие компьютерные программы уже обеспечивали хорошую анимацию лиц спереди, модель Бюлера также может реалистично отображать лица сбоку, а также сверху и снизу.
Внимательный взгляд может разоблачить дипфейки
Есть ли опасность, что новая технология вскоре позволит распространять еще более реалистичные дипфейковые видео, например, подделывать речь важного политика? «Видео Deepfake все еще далеко от совершенства», — говорит Бюлер. Он отмечает, что большинство компьютерных программ достигают хороших результатов только в определенных условиях. Например, новая модель лица еще не может реалистично отображать такие детали, как волосы.
«Любой, кто присмотрится, все равно найдет артефакты», — говорит Бюлер. Он считает более важным держать общественность в курсе текущего положения дел. Он добавляет, что опубликование исследований методов 3D-рендеринга, а также их уязвимостей может помочь экспертам по кибербезопасности легче обнаруживать дипфейковые видео в Интернете.
Для интерактивных приложений виртуальной реальности работа этих исследователей ETH представляет собой огромный прогресс. Вполне возможно, что технологические компании, такие как Facebook и Microsoft, будут внедрять недавно разработанные методы двух докторантов в свои аватары.
Изображения: ETH Zurich
Дополнительная информация: Chen X, Zheng Y, Black M, Hilliges O, Geiger A, VariTex: Variational Neural Face Textures. openaccess.thecvf.com/content/… ICCV_2021_paper.html
Бюлер М., Мека А., Ли Г., Билер Т., Хиллигес О., SNARF: Дифференцируемое прямое скинирование для анимации нежестких нейронных неявных форм. openaccess.thecvf.com/content/… ICCV_2021_paper.html
Будьте в курсе в удобном формате, присоединяйтесь: TG-канал и ВК
Опубликуйте материал о вашем проекте, стартапе или технологии
hello@technovery.com