Исследователи из SketchX Университета Суррея недавно разработали основанную на метаобучении модель, которая позволяет пользователям извлекать изображения определенных предметов, просто рисуя их на планшете, смартфоне или других интеллектуальных устройствах. Эта структура была изложена в документе, который будет представлен на Европейской конференции по компьютерному зрению (ECCV), одной из трех ведущих конференций по компьютерному зрению наряду с CVPR и ICCV.
«Это последняя работа в области «детализированного поиска изображений», проблемы, которую моя исследовательская лаборатория (SketchX, которой я руковожу и которую я основал в 2012 году) впервые начала еще в 2015 году, когда в CVPR 2015 была опубликована статья под названием «Нарисуй мне эту обувь», — сказал TechXplore И-Чжэ Сонг, один из исследователей, проводивших исследование. «Идея нашей статьи заключается в том, что часто трудно или невозможно провести поиск изображений на мелкозернистом уровне (например, найти определенный тип обуви на Рождество, но не любую обувь)».
В прошлом некоторые исследователи пытались разработать модели, которые могут извлекать изображения на основе текстовых или голосовых описаний. Текст может быть проще для пользователей , но оказалось, что он работает только на грубом уровне. Другими словами, это может стать двусмысленным и неэффективным при попытке описать детали.
Наброски или каракули, с другой стороны, по своей природе мелкозернисты и, таким образом, оптимальны для создания подробных и точных изображений объектов. Кроме того, большинство современных интеллектуальных устройств имеют сенсорные экраны, на которых пользователи могут создавать эскизы .
«Ключевые проблемы, когда дело доходит до извлечения мелкозернистых изображений на основе эскизов, в основном заключаются в следующем: (i) люди просто не могут хорошо рисовать, (ii) мы рисуем в разных стилях и (iii) не хватает эскизов для обучения . хорошие модели», — объяснила Сонг. «Мы опубликовали серию статей по этой теме, каждый раз затрагивая разные аспекты. В нашей последней статье рассматриваются сразу все три проблемы, что еще больше расширяет границы практического применения технологии».
Модель, разработанная Сонгом и его коллегами, позволяет даже пользователям, не особо умеющим делать наброски, извлекать изображения искомых объектов, даже если она не была обучена на изображениях этих объектов. Это обеспечивается за счет «адаптивного» дизайна, который позволяет системе адаптироваться к уникальному стилю рисования пользователя, качеству его/ее рисунков и новым категориям объектов, используя всего лишь несколько эскизов-примеров.
«Наша система учится работать с вами (лучше понимает ваши наброски) очень быстро, пока вы используете ее первые несколько раз — обычно 2–3 примеров более чем достаточно», — сказал первый автор Аян Бхуния. «Лучше всего то, что эта адаптация происходит только во время тестирования, а это означает, что вам не нужно обучать новую модель для другого пользователя/категории — это очень помогает практическому развертыванию, просто предоставьте одну и ту же обученную модель каждому клиенту, и она научится работать с другим стилем/качеством/категорией после развертывания».
При первоначальных оценках с использованием общедоступных наборов данных модель исследователей показала себя на удивление хорошо, поскольку она могла извлекать изображения с использованием различных образцов эскизов. В будущем он может быть использован интернет-магазинами и другими компаниями, чтобы позволить своим клиентам находить типы продуктов, которые они ищут, не просматривая весь их каталог.
«Наша работа уже очень зрелая, следующим этапом будет коммерциализация нашей системы и предоставление обычным пользователям возможности извлечь выгоду из этой последней разработки в области ИИ, чтобы они могли найти «эту» пару обуви, просто рисуя пальцами на экране телефона. «, — добавила Сонг. «В более долгосрочной перспективе мы могли бы также распространить мелкозернистый поиск на Метавселенную. Представьте, что вы рисуете краткий набросок пальцами в трехмерном мире, и перед вами появляется нужный продукт / здание / объект».
Сонг и его коллеги сейчас пытаются коммерциализировать свою модель и способствовать ее внедрению в реальных условиях. Некоторые всемирно известные розничные торговцы мебелью и одеждой уже выразили заинтересованность в использовании этой модели для улучшения своих услуг.
Дополнительная информация: Аян Кумар Бхуния и др., Адаптивный поиск изображений на основе мелкозернистых эскизов. arXiv:2207.01723v2 [cs.CV], arxiv.org/abs/2207.01723
Будьте в курсе в удобном формате, присоединяйтесь: TG-канал и ВК
Бесплатная служба распространения новостей для научных организаций и стартапов
hello@technovery.com