• Главная
  • Лента новостей 1
  • Лента новостей 2
  • Статьи
  • Календарь событий
  • Образование
  • Финансирование
  • Открытые инновации
  • Шоу-рум
  • О проекте
  • Партнеры
  • Добавить публикацию
  • Сервисы
  • Реклама
  • hello@technovery.com
  • telegram
  • vk
technovery
Нет результатов
Все результаты
technovery
Нет результатов
Все результаты

Новый подход к автоматическому распознаванию речи

12 января, 2023
Наука
Новый подход к автоматическому распознаванию речи

Лишь часть из 7000–8000 языков, на которых говорят во всем мире, пользуются современными языковыми технологиями, такими как транскрипция голоса в текст, автоматические субтитры, мгновенный перевод и распознавание голоса. Исследователи из Университета Карнеги-Меллона хотят увеличить количество языков с доступными им инструментами автоматического распознавания речи примерно с 200 до потенциально 2000.

«Многие люди в этом мире говорят на разных языках, но инструменты языковых технологий разрабатываются не для всех из них», — сказал Синьцзян Ли, доктор философии. студент Института языковых технологий Школы компьютерных наук (LTI). «Разработка технологии и хорошей языковой модели для всех людей — одна из целей этого исследования».

Ли является частью исследовательской группы, стремящейся упростить требования к данным, необходимые языкам для создания модели распознавания речи . Команда, в которую также входят преподаватели LTI Синдзи Ватанабе, Флориан Метце, Дэвид Мортенсен и Алан Блэк, представила свою последнюю работу «ASR2K: распознавание речи для примерно 2000 языков без звука» на выставке Interspeech 2022 в Южной Корее.

Для большинства моделей распознавания речи требуется два набора данных : текст и аудио. Текстовые данные существуют для тысяч языков. Аудио данных нет. Команда надеется устранить необходимость в аудиоданных, сосредоточившись на лингвистических элементах, общих для многих языков.

Исторически сложилось так, что технологии распознавания речи сосредоточены на фонеме языка. Эти отдельные звуки, которые отличают одно слово от другого — например, «в», которая отличает «собаку» от «бревна» и «винтика», — уникальны для каждого языка. Но в языках также есть звуки, которые описывают, как слово звучит физически. Несколько звуков могут соответствовать одной фонеме. Таким образом, хотя отдельные языки могут иметь разные фонемы, их основные звуки могут быть одинаковыми.

Команда LTI разрабатывает модель распознавания речи, которая отходит от фонем и вместо этого опирается на информацию о том, как звуки распределяются между языками, тем самым сокращая усилия по созданию отдельных моделей для каждого языка. В частности, способ сочетает модель с филогенетическим деревом — диаграммой, отображающей отношения между языками, — чтобы помочь с правилами произношения. Благодаря своей модели и древовидной структуре команда может аппроксимировать модель речи для тысяч языков без аудиоданных.

Все еще на ранней стадии, исследование улучшило существующие инструменты языковой аппроксимации на скромные 5%, но команда надеется, что оно послужит источником вдохновения не только для их будущей работы, но и для других исследователей.

Дополнительная информация: Xinjian Li et al, ASR2K: распознавание речи для примерно 2000 языков без звука, Interspeech 2022 (2022). DOI: 10.21437/Интерспич.2022-10712

 

Будьте в курсе в удобном формате, присоединяйтесь: TG-канал и ВК

Бесплатная служба распространения новостей для научных организаций и стартапов

hello@technovery.com

 

Source: Tech Xplore
Теги: Машинное обучениеРаспознавание речи

Related Posts

VALL-E: искусственный интеллект Microsoft может переводить вашу речь на иностранные языки
Цифра

VALL-E: искусственный интеллект Microsoft может переводить вашу речь на иностранные языки

10 марта, 2023
Исследования молодого ученого из Московского Политеха увеличат точность системы технического зрения
Наука

Исследования молодого ученого из Московского Политеха увеличат точность системы технического зрения

10 марта, 2023
Открытие новых возможностей в аудиоаналитике: Сервис KSA от МТУСИ
Наука

Открытие новых возможностей в аудиоаналитике: Сервис KSA от МТУСИ

27 февраля, 2023
Загрузить больше

Технологии

Робототехника
Беспилотники
Машинное обучение
AI
Транспорт
Материалы
ВИЭ
Интернет вещей
Микроэлектроника
Оптика
Носимые устройства

Смотреть все »

Запросы

Х5 Group в партнерстве с платформой Technovery приступают к поиску инновационных проектов для решения проблематики пищевых отходов

СМ Инновации

Тинькофф работает со стартапами

Масштабируйте свой стартап вместе с Контуром

Акселератор ВТБ

АСИ и АВТОВАЗ запустили отбор проектов по развитию автопрома

Х5 Group в партнерстве с платформой Technovery приступают к поиску инновационных проектов для решения проблематики пищевых отходов
Пилотные проекты

Х5 Group в партнерстве с платформой Technovery приступают к поиску инновационных проектов для решения проблематики пищевых отходов

7 марта, 2023

© 2022 technovery

  • hello@technovery.com
  • Условия использования
  • Политика конфиденциальности
Нет результатов
Все результаты
  • Главная
  • Лента новостей 1
  • Лента новостей 2
  • Статьи
  • Календарь событий
  • Образование
  • Финансирование
  • Открытые инновации
  • Шоу-рум
  • Карта технологий
  • О проекте
  • Партнеры
  • Добавить публикацию
  • Сервисы
  • Реклама
  • hello@technovery.com

© 2022 technovery