Американские ученые перевели речь в письменный текст

Алгоритм Brain2Char создала команда американских ученых под руководством Эдварда Чанга, профессора Калифорнийского университета. Об этом сообщает интернет-издание N+1.

Разработчики обучали систему на данных электрокортикографии четырех пациентов, которым были вживлены специальные электроды. Во время эксперимента люди читали предложения и описывали изображения, а датчики считывали электрическую активность мозга — разницу мембранных потенциалов нейронов.

В начале группа ученых взяла данные электрокортикографии и выделила временные, пространственные и частотные характеристики зарегистрированных сигналов. Получаемый при этом звук обрабатывается нейросетью DeepSpeech. Еще две специальные нейросети с долгой краткосрочной памятью (LSTM) воссоздают характеристики текста на основе обработанных сигналов. Для «чистки» текста в алгоритме есть регуляционная сеть

Сегодня большую популярность получили нейроинтерфейсы — технологии, позволяющие считывать активность мозга и синтезировать на ее основе аналоговые сигналы. Такие системы позволяют облегчить управление протезами. Brain2Char — одна из них.

Результаты исследования позволят улучшить уже существующие нейроинтерфейсы по переводу мозговой активности в письменную речь. Величина ошибки (Word Error Rate) при производстве устной речи составила 7–10,6 %, при беззвучной (только с помощью артикуляции) — 40–67 %. По мнению авторов исследования, это позволит в скором времени создать качественные протезы для немых людей.

Препринт статьи с описание алгоритма доступен на arXiv.

Автор

Шилинг Евгений

20 сентября 2019