Читай по губам: летняя школа машинного обучения ЦРТ
В августе Университет ИТМО и группа IT-компаний Центр речевых технологий (ЦРТ) организовали первую летнюю школу по машинному обучению Algorythm. «Мегабайт» сходил на защиту студенческих проектов и узнал, как усовершенствовать систему распознавания речи и как у летнешкольников проходили занятия.
Летняя школа объединила девять участников из разных городов России. Претенденты выполняли тестовое задание, связанное с нейронными сетями. Необходимо было создать систему распознавания дорожных знаков на изображениях. Можно использовать любые библиотеки и подходы, главное — добиться результата. Подобные сети применяются в современных системах автоматического управления автомобилей.
В течение двух недель поступившие посещали лекции и практические занятия. Студентов знакомили с развитием методов машинного обучения в задачах распознавания речи и компьютерного зрения, с цифровой обработкой сигналов, с различными алгоритмами поиска необходимых данных и с автоматическим распознаванием речи по губам и голосу. Преподаватели — специалисты в области анализа изображений, распознавания речи, голосовой биометрии, машинного обучения в разных сферах. После лекций участники закрепляли полученные знания на практике.
В качестве итогового задания студенты должны были доработать систему распознавания речи по звуку и видео. Это реальный проект компании ЦРТ. Задача — минимизировать ошибки и улучшить показатели распознавания по губам и голосу. Ребята работали в группах по три человека и каждая команда выбрала свой подход.
Все студенты школы получили сертификаты, а лучшим предложили работу в научно-исследовательском департаменте ЦРТ.
После обучения у нас оставалось два дня на разработку полноценной системы. У всех были одинаковые входные данные — изображения губ и ключевые точки, а также ограниченный «словарный запас»: фразы из 5-10 уникальных цифр. Другие ребята работали над системами, в которых на выходе получаешь готовые слова. Мы же на выходе получали фонемы — отдельные звуки. После нужно было использовать кодер для преобразования фонем в слова. Это происходило уже без технологий машинного обучения.
Иван Кремнев
Нам дали систему, которая распознает фонемы, а я занимался распознаванием пар звуков, идущих подряд. Преобразовывая парные фонемы в одиночные, я создавал классификацию и сверялся с ней. Это помогло добиться прироста скорости распознавания. Мне очень понравились занятия в школе! Лекции были подробные и интересные. Это мой первый практический опыт, раньше я занимался машинным обучением самостоятельно: читал статьи и туториалы, пробовал что-то делать.
Антон Митрофанов
В команде я пыталась определить оптимальный способ поиска главных компонентов. Я модифицировала характеристические точки губ для того, чтобы правильно преобразовать данные и дать на вход алгоритму, который мы разработали. Для меня это не первый опыт машинного обучения, но с речью работала впервые. В школе понравилось то, что и лекции, и практические занятия предоставляли информацию, необходимую для проекта.
Марина Волкова
Материал опубликован в газете «Мегабайт»