Новости за сегодня: чему научились нейросети
Ученые опубликовали исследования, в которых разработали программы для изучения обложки книг, распознавания речи по губам и склонности к суициду.
Нейросети научились распознавать жанр книги по изображению на обложке. Работу опубликовала команда японских исследователей на arXiv.org. Новый метод основан на четырехслойной сверточной нейросети. Программа предсказала к какому из 20 жанров в системе Amazon относится та или иная книга в 40% случаев.
Исходным материалом для авторов стала подборка из 137 788 книжных обложек, которые исследователи взяли из онлайн-магазина Amazon. Каждая книга характеризовалась одним из 20 жанров. Если на сайте указаны несколько категорий, ученые брали первую из списка. Два сверточных слоя анализировали изображения. Два связанных обрабатывали картинку без уменьшения ее размерности. Сеть обучали на 80% выборки, а оставшиеся данные использовали для проверки ее работоспособности. Об этом пишет N+1.
Команда ученых из Университета Цинциннати, Университета Колорадо в Денвере, Университета Южной Калифорнии и Принстонского университета разработала алгоритм, который определяет склонен ли человек к самоубийству. Результаты работы опубликованы в журнале Suicide and Life-Threatening Behavior.
В исследовании поучаствовали 379 человек из Медицинского центра Детской больницы Цинциннати, Медицинского центра Университета Цинциннати и Принстонской общественной больницы. Участники относились к трем группам: склонные к суициду, психически больные, но не склонные к суициду и здоровые люди (контрольная группа). Склонным к самоубийству считают человека, который в течение 24 часов попал в больницу или обращался в скорую помощь или психиатрическую больницу из-за попытки или намерения совершить самоубийство. Психически больные — люди с соответствующим диагнозом.
Пациенты прошли стандартизированные тесты на депрессию, тяжесть суицидальных проявлений и выраженность мании. Затем врач задавал вопросы на подобии «Есть ли у вас надежда?», «Есть ли у вас секреты?», «Есть ли у вас страхи?». Беседы ученые записали на видео. Затем они расшифровали интервью, создали «словарь» ключевых слов и звуковых характеристик. Часть этой информации легла в основу исходных данных для обучения нейросети.
Затем программа обработала оставшиеся записи и транскрипты интервью. Нейросеть анализировала одну лингвистическую или акустическую составляющую речи и обе одновременно. При сравнении людей, склонных к самоубийству, с контрольной группой, алгоритм достигал точности в 93% (только текст), 79% (только аудио) и 92% (текст + аудио). Суицидальных от психически больных он отличал в 79% (текст), 76% (аудио) и 81% (текст + аудио) случаев. Об этом рассказал «XX2 век»
Исследователи из Оксфордского университета создали программу, которая распознает речь по губам на уровне предложений. Разработчики отметили, что программа делает это намного лучше человека. Статья опубликована на OpenReview, однако подготовили ее к конференции ICLR 2017, отметило N+1.
Ученые много лет пытались разработать программу, чтобы «читать» по губам. Однако до сих пор попытки не были успешны: они распознавали на основе мимики отдельные слова и словосочетания, но не целые предложения.
Авторы исследования использовали программу LipNet, в основе которой лежит использование LSTM-нейросети. Она представляет собой подвид рекуррентных нейросетей, которым характерна обратная связь. Также такая нейросеть способна изучать долговременные зависимости: хранит информации в течение продолжительного периода и способна работать с контекстом в длинных предложениях.
Для работы ученые взяли базу данных Grid как исходный материал, в которой собрано 32 тысячи видеозаписей. На роликах 13 человек произносили на английском языке предложения, построенные по одному принципу: : команда (4) + цвет (4) + предлог (4) + буква (25) + число (10) + наречие (4). В скобках указано количество вариантов слов для каждой из шести словесных категорий. Разнообразия добились с помощью звуком, которые во время произношения выглядят одинаково — имеют общую визему. Каждое предложение имело 64 тысячи вариантов.