• Главная
  • Лента новостей
  • Лента RSS
  • Статьи
  • Календарь событий
  • Образование
  • Финансирование
  • Открытые инновации
  • Шоу-рум
  • О проекте
  • Партнеры
  • Добавить публикацию
  • Сервисы
  • Реклама
  • hello@technovery.com
  • telegram
  • vk
technovery
Нет результатов
Все результаты
technovery
Нет результатов
Все результаты

Машины, которые видят мир почти как люди

9 декабря, 2021
Наука
Машины, которые видят мир почти как люди

Системы компьютерного зрения иногда делают выводы о сцене, противоречащие здравому смыслу. Например, если робот обрабатывал сцену с обеденным столом, он может полностью игнорировать чашку, видимую любому человеку-наблюдателю, решить, что тарелка плавает над столом, или ошибочно воспринять вилку как проникающую в чашку, а не прислонившуюся к ней.

Переместите эту систему компьютерного зрения на беспилотный автомобиль, и ставки станут намного выше — например, такие системы не смогли обнаружить машины скорой помощи и пешеходов, переходящих улицу.

Чтобы преодолеть эти ошибки, исследователи Массачусетского технологического института разработали структуру, которая помогает машинам видеть мир более похожим на то, как его видят люди. Их новая система искусственного интеллекта для анализа сцен учится воспринимать объекты реального мира всего по нескольким изображениям и воспринимает сцены с точки зрения этих изученных объектов.

Исследователи создали структуру, используя вероятностное программирование , подход ИИ, который позволяет системе проверять обнаруженные объекты на входные данные, чтобы увидеть, соответствуют ли изображения, записанные с камеры, любой возможной сцене . Вероятностный вывод позволяет системе сделать вывод, вызваны ли несовпадения шумом или ошибками в интерпретации сцены, которые необходимо исправить с помощью дальнейшей обработки.

 Massachusetts Institute of Technology

Эта основанная на здравом смысле мера предосторожности позволяет системе обнаруживать и исправлять множество ошибок, которые мешают подходам «глубокого обучения», которые также использовались для компьютерного зрения. Вероятностное программирование также позволяет сделать вывод о возможных отношениях контакта между объектами в сцене и использовать здравый смысл в отношении этих контактов, чтобы сделать вывод о более точных положениях объектов.

Помимо повышения безопасности беспилотных автомобилей, эта работа могла бы повысить производительность компьютерных систем восприятия, которые должны интерпретировать сложное расположение объектов, например робота, которому поручено убирать захламленную кухню.

Исследование будет представлено на конференции по нейронным системам обработки информации в декабре.

Взрыв из прошлого

При разработке системы, получившей название «Восприятие трехмерной сцены посредством вероятностного программирования (3DP3)», исследователи использовали концепцию первых исследований ИИ, согласно которой компьютерное зрение можно рассматривать как «инверсию» компьютерной графики.

Компьютерная графика фокусируется на создании изображений на основе представления сцены; компьютерное зрение можно рассматривать как обратное этому процессу. Усеные сделали эту технику более обучаемой и масштабируемой, включив ее в структуру, построенную с использованием вероятностного программирования.

«Вероятностное программирование позволяет нам записывать наши знания о некоторых аспектах мира так, как компьютер может интерпретировать, но в то же время оно позволяет нам выразить то, чего мы не знаем, — неопределенность. Итак, система может автоматически учиться на данных, а также автоматически определять, когда правила не соблюдаются ».

В этом случае модель кодируется с предварительными знаниями о 3D-сценах. Например, 3DP3 «знает», что сцены состоят из разных объектов, и что эти объекты часто лежат друг на друге, но они не всегда могут находиться в таких простых отношениях. Это позволяет модели рассуждать о сцене с большим смыслом.

Изучение форм и сцен

Чтобы проанализировать изображение сцены, 3DP3 сначала узнает об объектах в этой сцене. После того, как было показано только пять изображений объекта, каждое из которых было снято под разным углом, 3DP3 изучает форму объекта и оценивает объем, который он займет в пространстве.

Если я покажу вам объект с пяти разных точек зрения, вы сможете создать довольно хорошее представление этого объекта. Вы поймете его цвет, его форму и сможете распознать этот объект во многих различных сценах»

Это намного меньше данных, чем подходы с глубоким обучением. Например, система обнаружения нейронных объектов Dense Fusion требует тысячи обучающих примеров для каждого типа объекта. Напротив, 3DP3 требует только несколько изображений для каждого объекта и сообщает о неопределенности. о частях формы каждого объекта, которые он не знает .

Система 3DP3 генерирует граф для представления сцены, где каждый объект является узлом, а линии, соединяющие узлы, указывают, какие объекты находятся в контакте друг с другом. Это позволяет 3DP3 производить более точную оценку расположения объектов. (Подходы глубокого обучения основаны на изображениях глубины для оценки поз объекта, но эти методы не создают графическую структуру отношений контактов, поэтому их оценки менее точны.)

Превосходя базовые модели

Исследователи сравнили 3DP3 с несколькими системами глубокого обучения, каждая из которых предназначена для оценки поз 3D-объектов в сцене.

Практически во всех случаях 3DP3 генерировал более точные позы, чем другие модели, и работала намного лучше, когда одни объекты частично мешали другим. При этом 3DP3 требовалось увидеть только пять изображений каждого объекта, в то время как каждая из базовых моделей, которые система превосходила, требовала тысячи изображений для обучения.

При использовании в сочетании с другой моделью 3DP3 смогла повысить ее точность. Например, модель глубокого обучения может предсказать, что чашка плавает немного над столом, но поскольку 3DP3 знает отношения контактов и может видеть, что это маловероятная конфигурация, она может внести поправку, выровняв чашку со столом.

Было удивительно видеть, насколько велики могут быть иногда ошибки из-за глубокого обучения — создание представлений сцены, в которых объекты действительно не совпадают с тем, что люди будут воспринимать. нашей причинно-вероятностной программы было достаточно, чтобы обнаружить и исправить эти ошибки. Конечно, предстоит еще пройти долгий путь, чтобы сделать ее достаточно быстрой и надежной для сложных систем технического зрения в реальном времени, но впервые мы видим вероятностную «программирование и структурированные причинно-следственные модели повышают надежность по сравнению с глубоким обучением на жестких тестах трехмерного зрения

В будущем исследователи хотели бы продвинуть систему дальше, чтобы она могла узнавать об объекте из одного изображения или одного кадра в фильме, а затем иметь возможность надежно обнаруживать этот объект в разных сценах. Они также хотели бы изучить использование 3DP3 для сбора обучающих данных для нейронной сети. Людям часто сложно вручную пометить изображения с помощью 3D-геометрии, поэтому 3DP3 можно использовать для создания более сложных меток изображений.

Дополнительная информация: Нишад Готоскар и др., 3DP3: Восприятие трехмерной сцены посредством вероятностного программирования. arXiv: 2111.00312v1 [cs.CV], arxiv.org/abs/2111.00312

 

Будьте в курсе в удобном формате, присоединяйтесь: TG-канал и ВК

 

Source: Tech Xplore
Теги: Компьютерное зрениеМашинное обучение

Related Posts

Тонкий сенсор для компьютерного зрения на основе массива микролинз (MLA)
Наука

Тонкий сенсор для компьютерного зрения на основе массива микролинз (MLA)

13 мая, 2022
Более 10 000 молодых людей смогут принять участие в конкурсе «Цифровой прорыв. Сезон: искусственный интеллект»
Конкурс

Более 10 000 молодых людей смогут принять участие в конкурсе «Цифровой прорыв. Сезон: искусственный интеллект»

22 апреля, 2022
Полноцветное ночное видение стало почти реальностью после прорыва в области глубокого обучения
Цифра

Полноцветное ночное видение стало почти реальностью после прорыва в области глубокого обучения

8 апреля, 2022
Загрузить больше

Технологии

Робототехника
Беспилотники
Машинное обучение
AI
Транспорт
Материалы
ВИЭ
Интернет вещей
Микроэлектроника
Оптика
Носимые устройства

Смотреть все »

Запросы

Актуальные запросы Правительства Москвы на поиск инновационных решений. Предложить решение можно до 31 мая

Курс на импортзамещение. Удмуртский государственный университет

Университет Иннополис предложит компаниям план перехода на российское ПО

Алмазодобывающая компания АЛРОСА проводит открытый конкурс проектов и технических решений в поисках вариантов рентабельной отработки запасов трубки Юбилейная подземным способом

Открытый запрос РЖД: Получение альтернативной энергии посредством обустройства микрогидроэлектростанций в системе водоснабжения. Подача предложений до 7 июля

Открытый запрос на поиск технологических решений. Северсталь

Всероссийский урбанистический хакатон «Города». Срок подачи заявок на участие в проекте — до 13 мая
Хакатон

Всероссийский урбанистический хакатон «Города». Срок подачи заявок на участие в проекте — до 13 мая

19 апреля, 2022

© 2022 technovery

  • hello@technovery.com
  • Условия использования
  • Политика конфиденциальности
Нет результатов
Все результаты
  • Главная
  • Лента новостей
  • Лента RSS
  • Статьи
  • Календарь событий
  • Образование
  • Финансирование
  • Открытые инновации
  • Шоу-рум
  • Карта технологий
  • О проекте
  • Партнеры
  • Добавить публикацию
  • Сервисы
  • Реклама
  • hello@technovery.com

© 2022 technovery