Лишь часть из 7000–8000 языков, на которых говорят во всем мире, пользуются современными языковыми технологиями, такими как транскрипция голоса в текст, автоматические субтитры, мгновенный перевод и распознавание голоса. Исследователи из Университета Карнеги-Меллона хотят увеличить количество языков с доступными им инструментами автоматического распознавания речи примерно с 200 до потенциально 2000.
«Многие люди в этом мире говорят на разных языках, но инструменты языковых технологий разрабатываются не для всех из них», — сказал Синьцзян Ли, доктор философии. студент Института языковых технологий Школы компьютерных наук (LTI). «Разработка технологии и хорошей языковой модели для всех людей — одна из целей этого исследования».
Ли является частью исследовательской группы, стремящейся упростить требования к данным, необходимые языкам для создания модели распознавания речи . Команда, в которую также входят преподаватели LTI Синдзи Ватанабе, Флориан Метце, Дэвид Мортенсен и Алан Блэк, представила свою последнюю работу «ASR2K: распознавание речи для примерно 2000 языков без звука» на выставке Interspeech 2022 в Южной Корее.
Для большинства моделей распознавания речи требуется два набора данных : текст и аудио. Текстовые данные существуют для тысяч языков. Аудио данных нет. Команда надеется устранить необходимость в аудиоданных, сосредоточившись на лингвистических элементах, общих для многих языков.
Исторически сложилось так, что технологии распознавания речи сосредоточены на фонеме языка. Эти отдельные звуки, которые отличают одно слово от другого — например, «в», которая отличает «собаку» от «бревна» и «винтика», — уникальны для каждого языка. Но в языках также есть звуки, которые описывают, как слово звучит физически. Несколько звуков могут соответствовать одной фонеме. Таким образом, хотя отдельные языки могут иметь разные фонемы, их основные звуки могут быть одинаковыми.
Команда LTI разрабатывает модель распознавания речи, которая отходит от фонем и вместо этого опирается на информацию о том, как звуки распределяются между языками, тем самым сокращая усилия по созданию отдельных моделей для каждого языка. В частности, способ сочетает модель с филогенетическим деревом — диаграммой, отображающей отношения между языками, — чтобы помочь с правилами произношения. Благодаря своей модели и древовидной структуре команда может аппроксимировать модель речи для тысяч языков без аудиоданных.
Все еще на ранней стадии, исследование улучшило существующие инструменты языковой аппроксимации на скромные 5%, но команда надеется, что оно послужит источником вдохновения не только для их будущей работы, но и для других исследователей.
Дополнительная информация: Xinjian Li et al, ASR2K: распознавание речи для примерно 2000 языков без звука, Interspeech 2022 (2022). DOI: 10.21437/Интерспич.2022-10712
Будьте в курсе в удобном формате, присоединяйтесь: TG-канал и ВК
Бесплатная служба распространения новостей для научных организаций и стартапов
hello@technovery.com