На пути к полезным роботам: Google создала роботов-официантов для сотрудников

За последние несколько лет мы наблюдаем значительный прогресс в применении машинного обучения к робототехнике. Однако современные роботизированные системы способны выполнять только очень короткие, жестко закодированные команды , такие как «Возьми яблоко», потому что они, как правило, лучше всего работают с четкими задачами и наградами. Им трудно научиться выполнять долгосрочные задачи и рассуждать об абстрактных целях, таких как подсказка пользователя, например: «Я только что потренировался, не могли бы вы принести мне что-нибудь перекусить?»

Между тем, недавний прогресс в обучении языковых моделей (LM) привел к созданию систем, которые могут выполнять широкий спектр задач понимания и генерации языка с впечатляющими результатами . Однако эти языковые модели по своей сути не привязаны к физическому миру из-за характера их процесса обучения: языковая модель обычно не взаимодействует со своей средой и не наблюдает за результатами своих ответов. Это может привести к тому, что он будет генерировать инструкции, которые могут быть нелогичными, непрактичными или небезопасными для выполнения роботом в физическом контексте. Например, на запрос «Я пролил свой напиток, вы можете помочь?» языковая модель GPT-3 отвечает: «Вы можете попробовать использовать пылесос», предложение, которое может быть небезопасным или невозможным для выполнения роботом. Когда вы спрашиваете Язык FLAN моделирует тот же вопрос, он извиняется за разлив со словами «извините, я не хотел», что является не очень полезным ответом. Поэтому мы задались вопросом, есть ли эффективный способ объединить продвинутые языковые модели с алгоритмами обучения роботов, чтобы использовать преимущества обоих?

В статье «Делай, как я могу, а не как я говорю: базовый язык робототехники» мы представляем новый подход, разработанный в сотрудничестве с Everyday Robots , который использует расширенные знания языковой модели, чтобы позволить физическому агенту, такому как робот, следовать текстовым инструкциям высокого уровня для физически обоснованных задач, в то же время основывая языковую модель на задачах, которые выполнимы в конкретном реальном контексте. Мы оцениваем наш метод, который мы называем PaLM-SayCan, помещая роботов в настоящую кухню и давая им задания, выраженные на естественном языке. Мы наблюдаем хорошо интерпретируемые результаты для растянутых во времени сложных и абстрактных задач, таких как «Я только что потренировался, пожалуйста, принесите мне перекусить и выпить, чтобы восстановиться». В частности, мы демонстрируем, что привязка языковой модели к реальному миру почти вдвое снижает количество ошибок по сравнению с необоснованными базовыми уровнями. Мы также рады выпустить установку для моделирования роботов .где исследовательское сообщество может проверить этот подход.

Наш подход использует знания, содержащиеся в языковых моделях (Say), для определения и оценки действий, полезных для выполнения инструкций высокого уровня. Он также использует функцию доступности (Can), которая позволяет приземлиться в реальном мире и определяет, какие действия можно выполнить в данной среде. Используя языковую модель PaLM, мы называем это PaLM-SayCan.

Нашу систему можно рассматривать как диалог между пользователем и роботом, поддерживаемый языковой моделью. Пользователь начинает с инструкции, которую языковая модель превращает в последовательность шагов для выполнения роботом. Эта последовательность фильтруется с использованием набора навыков робота, чтобы определить наиболее осуществимый план с учетом его текущего состояния и окружающей среды. Модель определяет вероятность того, что конкретный навык успешно продвинется к завершению инструкции, умножая две вероятности: (1) адаптации к задаче (т. е. описание навыка на языке) и (2) адаптации к миру.

Существуют дополнительные преимущества нашего подхода с точки зрения его безопасности и интерпретируемости. Во-первых, позволяя LM оценивать различные варианты, а не генерировать наиболее вероятный результат, мы фактически ограничиваем LM выводом только одного из предварительно выбранных ответов. Кроме того, пользователь может легко понять процесс принятия решения, взглянув на отдельные оценки языка и доступности, а не на один результат.