Системы компьютерного зрения иногда делают выводы о сцене, противоречащие здравому смыслу. Например, если робот обрабатывал сцену с обеденным столом, он может полностью игнорировать чашку, видимую любому человеку-наблюдателю, решить, что тарелка плавает над столом, или ошибочно воспринять вилку как проникающую в чашку, а не прислонившуюся к ней.
Переместите эту систему компьютерного зрения на беспилотный автомобиль, и ставки станут намного выше — например, такие системы не смогли обнаружить машины скорой помощи и пешеходов, переходящих улицу.
Чтобы преодолеть эти ошибки, исследователи Массачусетского технологического института разработали структуру, которая помогает машинам видеть мир более похожим на то, как его видят люди. Их новая система искусственного интеллекта для анализа сцен учится воспринимать объекты реального мира всего по нескольким изображениям и воспринимает сцены с точки зрения этих изученных объектов.
Исследователи создали структуру, используя вероятностное программирование , подход ИИ, который позволяет системе проверять обнаруженные объекты на входные данные, чтобы увидеть, соответствуют ли изображения, записанные с камеры, любой возможной сцене . Вероятностный вывод позволяет системе сделать вывод, вызваны ли несовпадения шумом или ошибками в интерпретации сцены, которые необходимо исправить с помощью дальнейшей обработки.
Massachusetts Institute of Technology
Эта основанная на здравом смысле мера предосторожности позволяет системе обнаруживать и исправлять множество ошибок, которые мешают подходам «глубокого обучения», которые также использовались для компьютерного зрения. Вероятностное программирование также позволяет сделать вывод о возможных отношениях контакта между объектами в сцене и использовать здравый смысл в отношении этих контактов, чтобы сделать вывод о более точных положениях объектов.
Помимо повышения безопасности беспилотных автомобилей, эта работа могла бы повысить производительность компьютерных систем восприятия, которые должны интерпретировать сложное расположение объектов, например робота, которому поручено убирать захламленную кухню.
Исследование будет представлено на конференции по нейронным системам обработки информации в декабре.
Взрыв из прошлого
При разработке системы, получившей название «Восприятие трехмерной сцены посредством вероятностного программирования (3DP3)», исследователи использовали концепцию первых исследований ИИ, согласно которой компьютерное зрение можно рассматривать как «инверсию» компьютерной графики.
Компьютерная графика фокусируется на создании изображений на основе представления сцены; компьютерное зрение можно рассматривать как обратное этому процессу. Усеные сделали эту технику более обучаемой и масштабируемой, включив ее в структуру, построенную с использованием вероятностного программирования.
«Вероятностное программирование позволяет нам записывать наши знания о некоторых аспектах мира так, как компьютер может интерпретировать, но в то же время оно позволяет нам выразить то, чего мы не знаем, — неопределенность. Итак, система может автоматически учиться на данных, а также автоматически определять, когда правила не соблюдаются ».
В этом случае модель кодируется с предварительными знаниями о 3D-сценах. Например, 3DP3 «знает», что сцены состоят из разных объектов, и что эти объекты часто лежат друг на друге, но они не всегда могут находиться в таких простых отношениях. Это позволяет модели рассуждать о сцене с большим смыслом.
Изучение форм и сцен
Чтобы проанализировать изображение сцены, 3DP3 сначала узнает об объектах в этой сцене. После того, как было показано только пять изображений объекта, каждое из которых было снято под разным углом, 3DP3 изучает форму объекта и оценивает объем, который он займет в пространстве.
Если я покажу вам объект с пяти разных точек зрения, вы сможете создать довольно хорошее представление этого объекта. Вы поймете его цвет, его форму и сможете распознать этот объект во многих различных сценах»
Это намного меньше данных, чем подходы с глубоким обучением. Например, система обнаружения нейронных объектов Dense Fusion требует тысячи обучающих примеров для каждого типа объекта. Напротив, 3DP3 требует только несколько изображений для каждого объекта и сообщает о неопределенности. о частях формы каждого объекта, которые он не знает .
Система 3DP3 генерирует граф для представления сцены, где каждый объект является узлом, а линии, соединяющие узлы, указывают, какие объекты находятся в контакте друг с другом. Это позволяет 3DP3 производить более точную оценку расположения объектов. (Подходы глубокого обучения основаны на изображениях глубины для оценки поз объекта, но эти методы не создают графическую структуру отношений контактов, поэтому их оценки менее точны.)
Превосходя базовые модели
Исследователи сравнили 3DP3 с несколькими системами глубокого обучения, каждая из которых предназначена для оценки поз 3D-объектов в сцене.
Практически во всех случаях 3DP3 генерировал более точные позы, чем другие модели, и работала намного лучше, когда одни объекты частично мешали другим. При этом 3DP3 требовалось увидеть только пять изображений каждого объекта, в то время как каждая из базовых моделей, которые система превосходила, требовала тысячи изображений для обучения.
При использовании в сочетании с другой моделью 3DP3 смогла повысить ее точность. Например, модель глубокого обучения может предсказать, что чашка плавает немного над столом, но поскольку 3DP3 знает отношения контактов и может видеть, что это маловероятная конфигурация, она может внести поправку, выровняв чашку со столом.
Было удивительно видеть, насколько велики могут быть иногда ошибки из-за глубокого обучения — создание представлений сцены, в которых объекты действительно не совпадают с тем, что люди будут воспринимать. нашей причинно-вероятностной программы было достаточно, чтобы обнаружить и исправить эти ошибки. Конечно, предстоит еще пройти долгий путь, чтобы сделать ее достаточно быстрой и надежной для сложных систем технического зрения в реальном времени, но впервые мы видим вероятностную «программирование и структурированные причинно-следственные модели повышают надежность по сравнению с глубоким обучением на жестких тестах трехмерного зрения
В будущем исследователи хотели бы продвинуть систему дальше, чтобы она могла узнавать об объекте из одного изображения или одного кадра в фильме, а затем иметь возможность надежно обнаруживать этот объект в разных сценах. Они также хотели бы изучить использование 3DP3 для сбора обучающих данных для нейронной сети. Людям часто сложно вручную пометить изображения с помощью 3D-геометрии, поэтому 3DP3 можно использовать для создания более сложных меток изображений.
Дополнительная информация: Нишад Готоскар и др., 3DP3: Восприятие трехмерной сцены посредством вероятностного программирования. arXiv: 2111.00312v1 [cs.CV], arxiv.org/abs/2111.00312
Будьте в курсе в удобном формате, присоединяйтесь: TG-канал и ВК