Обнаружены алгоритмы копирования голоса, способные обмануть устройства распознавания голоса

Группа исследователей из Чикагского университета обнаружила, что алгоритмы копирования голоса продвинулись до такой степени, что теперь они способны обмануть устройства распознавания голоса и, во многих случаях, людей, которые их слушают. Группа разместила на сервере препринтов arXiv документ, в котором описаны два хорошо известных алгоритма копирования голоса.

Видео Deepfake хорошо известны: на YouTube регулярно можно увидеть множество примеров того, что только кажется знаменитостями. И хотя такие видео стали более реалистичными и убедительными, одна из областей, где они терпят неудачу, — это воспроизведение человеческого голоса. В этой новой работе команда UoC нашла доказательства того, что технология продвинулась вперед. Они протестировали два из самых известных алгоритмов копирования голоса на устройствах распознавания голоса и людях и обнаружили, что алгоритмы улучшились до такой степени, что теперь они могут обмануть и тех и других.

Два алгоритма — SV2TTS и AutoVC — были протестированы путем получения образцов голосовых записей из общедоступных баз данных. Обе системы были обучены с использованием 90 пятиминутных голосовых фрагментов разговоров людей. Они также заручились помощью 14 волонтеров, которые предоставили образцы голоса и доступ к своим устройствам распознавания голоса. Затем исследователи протестировали две системы с помощью программного обеспечения с открытым исходным кодом Resemblyzer — оно прослушивает и сравнивает записи голоса, а затем дает оценку на основе двух похожих образцов. Они также протестировали алгоритмы, используя их для попытки доступа к службам на устройствах распознавания голоса.

Исследователи обнаружили, что алгоритмы могли обмануть Resemblyzer почти в половине случаев. Они также обнаружили, что им удавалось обмануть Azure (службу облачных вычислений Microsoft) примерно в 30% случаев. И им удавалось обмануть систему распознавания голоса Amazon Alexa примерно в 62% случаев.

Двести добровольцев также прослушали пары записей и попытались определить, были ли голоса от одного и того же человека — результаты были неоднозначными, но в целом алгоритмы могли обмануть добровольцев чаще, чем нет, — особенно когда образцы голоса были известных людей.

Дополнительная информация: Эмили Венгер и др. «Hello, It’s Me»: атаки речевого синтеза на основе глубокого обучения в реальном мире. arXiv: 2109.09598v1 [cs.CR], arxiv.org/abs/2109.09598

Будьте в курсе в удобном формате, присоединяйтесь: TG-канал и ВК

Source: Tech Xplore