48 часов до успеха
В Университете ИТМО прошел масштабный хакатон MLHack, посвященный проблемам машинного обучения. На протяжение трех дней участники искали решение для одного из предложенных кейсов от Botan Investments и AMZScout. Мы спросили у победителей, чем им удалось покорить жюри, почему так называются их команды и как они выстраивали работу в команде.
Илья Шамов, команда «Сковородка» (победители Voice processing)
— Наша команда называется «Сковородка» благодаря забавному случаю. Мы посещаем мероприятия VK Tech Talks, и на одном из них Илья Ильменский выиграл фирменную панамку будучи под ником «Сковородка». Нам всем понравилось, как выглядели уведомления «Сковородка вырывается вперед!», «Сковородка в огне!», и мы решили оставить это название.
Мы учимся на втором курсе факультета ИТИП, команда собиралась по цепочке — каждый искал желающих среди друзей. Причем мы, скорее, делили обязанности, чем собирали команду под них: у некоторых есть умения в нескольких сферах, поэтому каждый мог отдать работу кому-то, каждый был заменим. При этом я абсолютно точно знаю, что если бы с нами не было любого из четырех человек, то в итоге мы ничего не показали бы экспертам. Для всех в команде, кроме меня, этот хакатон первый. Я очень рад, что ребятам понравился формат работы и мы сумели реализовать нашу идею.
Мы выбирали задание из двух наиболее понравившихся направлений: Grow Food — подсчет калорий по фото и Voice Processing — изменение акцента. Для нас первый вариант выглядел проще: в реализации не видели проблем, — но мы решили что-то доказать себе и взяли то, что сложнее. Мы плохо понимали, как и где можно применять аудио-удаление акцента, не имели опыта в разработке нейросетей для работы со звуком и поэтому нам пришлось исследовать новую тему.
Мы придумали middleware-систему для изменения акцента на аудиозаписи. Особенность нашего метода заключается в том, что он позволяет менять акцент незамедлительно. Насколько мы знаем, такого никто на рынке до нас не предлагал. Наш проект применим в онлайн-обучении: теперь видеокурсы с разных концов планеты можно смотреть, не сталкиваясь с проблемами восприятия речи из-за акцента.
Я считаю, что идея направления, в котором мы работали, очень крута, но пока нет реального бизнес-запроса на нее. Интернет-пользователи почти всегда общаются с носителями родного языка, поэтому трудностей с восприятием у них не возникает. Мне кажется, что в недалеком будущем, когда большие команды людей из разных стран будут работать над глобальными проектами, проблема потокового перевода решится. Последним шагом для полной потоковой замены речи человека на язык собеседника станет стилизация голоса — тогда наши алгоритмы приобретут актуальность.
Артем Горланов, команда deepkotix (победители Sing like a Pro)

— Мой ник, deepkotix, под которым я обычно выступал на соревнованиях, оказался довольно счастливым: мы уже третий год командой выигрываем конкурсы, а оригинальнее названия так и не придумали. Когда узнали о хакатоне через Russian Hackers, то решили участвовать: конкретные и интересные задачи, которые можно развить; сильное жюри.
В нашей команде сразу было четкое разделение ролей. Двое занимались ML, еще один участник делал демо-сайт. Четвертого предложили организаторы из-за того, что у него распалась команда, — он отвечал за дизайн и продуктовую аналитику.
Изначально мы выбрали Media compression, но в эту номинацию нас не взяли, зато из-за опыта в аудио допустили в Sing like a pro. Мы разработали продукт, помогающий создавать кавер-версию песни. Схема следующая: клиент загружает песню, которую он хочет закаверить; алгоритмы разделяют аудио на инструменты и pro-вокал; клиентский вокал улучшается, а потом объединяется с инструменталом.
Проект требует доработки. Нужно довести до ума алгоритм дотягивания дорожки до pro-вокала. Конечно, для этого не хватает баз обучения, но зато мы знаем, как их получить и как улучшить технологию, автоматизируя профессиональный мастеринг.
Павел Алексеев, команда PANDAS (победители Calorie calculator)

— PANDAS базируется на похожих ценностях и удовольствии от совместной работы. Команду объединяет сообщество ODS. Наши роли смешаны, если говорить по направлениям, то это работа с датасетом, маркетинг, питч (Надежда); построение и тестирование ML-моделей, devops (Дарья); системная архитектура, деплой, MVP (Павел); дизайн (Анастасия).
Мы регулярно отслеживаем хакатоны; о MLHack узнали через Russian Hackers. Решение об участии приняли стандартно: интересная для всей команды задача + хороший организатор.
Наша номинация — калькулятор калорий по фотографии. Мы выбрали ее из-за личной заинтересованности. К тому же это интересно и весело: оказалось, что фотографировать еду можно не только для инстаграма. С помощью машинного обучения мы распознаем на фото основные виды еды и вычисляем количество калорий. Особенность нашего проекта заключается в предоставлении не только статистики по потребляемым калориям, но и диетологических рекомендаций на основе рациона пользователя, а также в возможности подстраивать рацион под задачи снижения или набора веса.
Мы будем продолжать развитие проекта. Ближайшие задачи: повысить стабильность и скорость работы прототипа, собрать и обработать фидбек, затем провести аналитику и создать новый цикл разработки.
Никита Арзамазов, команда «Барбос низкий лосс» (победители Media Compression)

— Название нашей команды имеет интересную историю, которая тянется с первого курса. В качестве домашнего задания по психологии мы опрашивали людей, а обсуждалось это все в беседе под названием «опрос-исследование». Потом она как-то переименовалась в «вопрос-расследование», а в конечном итоге — в «барбос-наследование». Так мы и стали «барбосами», а «низкий лосс» просто хорошо легло в связи с тематикой машинного обучения.
Финальную идею проекта мы придумали уже на хакатоне. Наш подход заключался в выделении нейросетью наиболее значимых частей изображений и видео. Наименее значимые подвергались фильтрациям так, чтобы эффективно уменьшать вес файлов. Разница визуально оказалась почти незаметна, при этом на отдельных изображениях JPEG удалось получить сжатие 80 %. Видео в среднем удавалось сжать на 15–20 %.
Мы знаем, как сделать продукт значительно лучше, и у нас есть видение, как создать на основе подхода сервис. Проект планируем развивать и сейчас активно обсуждаем это. Сама идея нацелена сразу на крупные зарубежные компании, которые вынуждены много платить за хостинги. Я думаю, если идея выстрелит, то быстро получит развитие, и многие компании захотят воспользоваться услугой пережатия контента.
