Обложка статьи

Читай по губам: летняя школа машинного обучения ЦРТ

В августе Университет ИТМО и группа IT-компаний Центр речевых технологий (ЦРТ) организовали первую летнюю школу по машинному обучению Algorythm. «Мегабайт» сходил на защиту студенческих проектов и узнал, как усовершенствовать систему распознавания речи и как у летнешкольников проходили занятия.

Летняя школа объединила девять участников из разных городов России. Претенденты выполняли тестовое задание, связанное с нейронными сетями. Необходимо было создать систему распознавания дорожных знаков на изображениях. Можно использовать любые библиотеки и подходы, главное — добиться результата. Подобные сети применяются в современных системах автоматического управления автомобилей. 

В течение двух недель поступившие посещали лекции и практические занятия. Студентов знакомили с развитием методов машинного обучения в задачах распознавания речи и компьютерного зрения, с цифровой обработкой сигналов, с различными алгоритмами поиска необходимых данных и с автоматическим  распознаванием речи по губам и голосу. Преподаватели — специалисты в области анализа изображений, распознавания речи, голосовой биометрии, машинного обучения в разных сферах. После лекций участники закрепляли полученные знания на практике.


В качестве итогового задания студенты должны были доработать систему распознавания речи по звуку и видео. Это реальный проект компании ЦРТ. Задача — минимизировать ошибки и улучшить показатели распознавания по губам и голосу. Ребята работали в группах по три человека и каждая команда выбрала свой подход.


Все студенты школы получили сертификаты, а лучшим предложили работу в научно-исследовательском департаменте ЦРТ.

После обучения у нас оставалось два дня на разработку полноценной сис­темы. У всех были одинаковые входные данные — изображения губ и ключевые точки, а также ограниченный «словарный запас»: фразы из 5-10 уникальных цифр. Другие ребята работали над системами, в которых на выходе получаешь готовые слова. Мы же на выходе получали фонемы — отдельные звуки. После нужно было использовать кодер для преобразования фонем в слова. Это происходило уже без технологий машинного обучения.

Иван Кремнев

Нам дали систему, которая распознает фонемы, а я занимался распознаванием пар звуков, идущих подряд. Преобразовывая парные фонемы в одиночные, я создавал классификацию и сверялся с ней. Это помогло добиться прироста скорости распознавания. Мне очень понравились занятия в школе! Лекции были подробные и интересные. Это мой первый практический опыт, раньше я занимался машинным обучением самостоятельно: читал статьи и туториалы, пробовал что-то делать. 

Антон Митрофанов

В команде я пыталась определить оптимальный способ поиска главных компонентов. Я модифицировала характеристические точки губ для того, чтобы правильно преобразовать данные и дать на вход алгоритму, который мы разработали. Для меня это не первый опыт машинного обучения, но с речью работала впервые. В школе понравилось то, что и лекции, и практические занятия предоставляли информацию, необходимую для проекта.

Марина Волкова
 

Материал опубликован в газете «Мегабайт» 

13 сентября 2017

Еще почитать по теме

Обложка статьи
Задача «Про учебу и отчисление»
В студфисе ИТМО нам рассказали, как студент может продолжить обучение, если у него есть академическая задолженность, и поделились, как здесь помогают студентам, которые хотят отчислиться по собственному желанию
Обложка статьи
Задача «Про учебу и отчисление»
В студфисе ИТМО нам рассказали, как студент может продолжить обучение, если у него есть академическая задолженность, и поделились, как здесь помогают студентам, которые хотят отчислиться по собственному желанию