Как «увидеть» чужими глазами?

Описание иллюстрации на обложке:

На горизонтальной картинке изображены два незрячих человека, каждый из них в темных очках, в их руках трости. Человек слева в желтой кофте, он держит телефон, по подсказкам которого в голове героя возникают разрозненные образы девушки, дерева и улыбки (мы понимаем это по отдельным облакам мыслей с черно-белыми картинками). Этот человек растерян.

Второму молодому человеку в зеленой кофте, приложив ладонь к уху, что-то нашептывает девушка в коричневой кофте, она стоит слева от незрячего. В облаке его мыслей изображена улыбающаяся светловолосая девушка в розовом платье, стоящая на фоне деревьев, на заднем фото летят «галочки» птиц. Герой улыбается.

По результатам исследований от 60 до 80 % информации человек воспринимает визуально. А как быть людям с нарушениями зрения? Выход из непростой ситуации нашли незрячие екатеринбуржцы. Маргарита Мельникова, координатор и сооснователь проекта «Опиши мне», рассказала, что думает об искусственном интеллекте, его способности описывать изображения и о качествах волонтеров, которые помогают обойти нейросеть.

На идею проекта — создать платформу, где незрячий сможет «рассмотреть» изображение или ролик глазами другого человека — Маргариту Мельникову навело собственное любопытство. Ей как человеку, полностью лишенному зрения, было интересно узнать, что показано в клипе на любимую песню, что изображено на известной картине, какое же все-таки платье: сине-черное или бело-золотое.

Вопросы множились, а зрячих людей, которые могли бы грамотно все описать, вокруг было не много. Позже выяснилось, что «видеть» изображения и небольшие ролики желает не только Маргарита. Тогда в январе 2015 года она рассказала об идее в кругу друзей, где ее одобрили. Сергей Сырцов, web-разработчик, вызвался помочь с разработкой сайта. В феврале того же года екатеринбуржцы запустили проект «Опиши мне».

От поиска пользователей до редактирования описаний
Маргарите и Сергею на момент запуска нужно было решить две основные задачи: продвинуть проект среди незрячей аудитории и найти грамотных и ответственных волонтеров, готовых на длительное сотрудничество. В первые месяцы о проекте узнавали благодаря партнеру — Свердловской областной специальной библиотеке для слепых.

Позже команда выиграла несколько гран-при на фестивалях социальных инициатив, и, наконец, с апреля 2019 года их работу поддерживает благотворительный фонд «Искусство, наука и спорт» в рамках программы «Особый взгляд». Тем не менее, основатели продолжают рассказывать об «Опиши мне» в специализированных сообществах в соцсетях, выступают на конференциях и социальных форумах, разрабатывают новые способы взаимодействия с незрячими людьми. Так, осенью 2019 года вышло одноименное мобильное приложение для Android, а весной этого — для iOS.

Сейчас в библиотеке сайта 16 рубрик с готовыми описаниями, которые отправят пользователя прогуляться по достопримечательностям, помогут выбрать поздравительную открытку для зрячих друзей, родственников или коллег, дадут возможность на равных обсудить новый клип любимой звезды. Также на сайте можно заказать персональное описание, например, вещи в интернет-магазине.

Каждое описание проходит проверку Маргариты и Сергея: они устраняют опечатки, логические, стилистические, орфографические и пунктуационные ошибки, вносят правки, если текст не соответствует правилам из «Памятки волонтеру».

Маргарита Мельникова, координатор и сооснователь проекта «Опиши мне»:
— Мы с Сергеем оба полностью незрячие, поэтому не можем оценить визуальное соответствие. Но это и не важно, ведь каждый волонтер увидит и опишет изображение немного по-своему. Для нас главное, чтобы не было ошибок и ляпов, устранить которые в наших силах. Мы много лет занимаемся копирайтенгом, пишем стихи, и, как нам кажется, чувствуем слово.

Искусственный интеллект vs волонтеры
Регулярно в сети появляются новости о достижениях в области искусственного интеллекта: то нейронная сеть пишет картины не хуже современных художников, то генерирует портреты несуществующих людей. Возникает вопрос: почему изображения до сих пор описывают люди?

Для англоговорящих пользователей существуют система от Microsoft и мобильное приложение Seeing AI. С их помощью незрячий человек может получить информацию об окружающих людях (пол, примерный возраст и эмоцию), о валюте и номинале денежных средств, о товаре по штрихкоду, также программа озвучивает вывески и небольшие отрывки текста. В октябре 2020 года компания представила новую версию системы для автоматической подписи изображений. Теперь алгоритм точнее подбирает слова для описания и может не только идентифицировать объекты, но и находить связи между ними. Вскоре систему внедрят в продукты пакета Microsoft Office, в приложение Seeing AI, а через инструменты компьютерного зрения Azure Cognitive Services к ней получат доступ и разработчики.

Среди русскоязычных приложений можно выделить Envision AI. Оно не отличается точностью, русские штрихкоды считывать отказывается, но умеет определять цвет, различать простые объекты и воспроизводить текст. Сама Маргарита порекомендовала плагин для автоматического распознавания текстов VisionBot, разработанный незрячим программистом Алексеем Самойловым. Одноименный бот доступен также в Telegram.

Маргарита Мельникова:
— К автоматическому описанию я отношусь довольно прохладно. Оно годится только для распознавания печатных текстов с картинок. Или если нужно приблизительно узнать, что на фото. Но в таких описаниях полностью отсутствует какая-либо детализация и эстетика. Нейронные сети могут дать комментарий: «Девушка, улыбается, дерево, вода», — а волонтер скажет: «Блондинка лет тридцати в легком темно-синем платье, босая, стоит у бассейна, глядит на звезды и улыбается». Видите разницу? Клипы, мультфильмы, короткометражное кино, рекламные ролики объяснить словами может только человек: у программ даже нет такой функции.

Думаю, чтобы полностью доверить описание изображений нейронной сети, потребуется вечность. Я буду рада, если незрячие смогут мгновенно получать доступ ко всему визуальному контенту благодаря искусственному интеллекту. Тогда мы поблагодарим волонтеров за сотрудничество, попрощаемся с ними и закроем сайт. Но, если честно, я не могу себе этого представить.

Такие вещи, как контексты, культурные коды, прошлый опыт — все, что важно для корректного описания, искусственному интеллекту едва ли будет доступно в ближайшее время. Не думаю, что незрячий человек захочет получить чисто механическое описание: «Киркоров поднял левую руку, затем правую ногу, продвинулся вперед на 30 сантиметров, протянул правую руку, взял устройство красного цвета, похожее на микрофон...» — это уныло и никому не нужно. Мы хотим «видеть» глазами других людей, видеть образы через текст. Описание — это как рассказ: пусть в нем есть условная объективность, но и художественность быть обязана.

Описание фото спикера:

Вертикальный портрет женщины лет тридцати с короткими русыми волосами. Лоб прикрывает негустая челка. Уголки губ слегка опущены, но Маргарита не выглядит грустной, скорее спокойной. Она в голубой кофте с коротким рукавом и темных очках с прямоугольной оправой. Левая рука как бы подпирает голову, правая, согнутая в локте, лежит на столе.

КАК ПОМОЧЬ?
Вариант первый: стать волонтером проекта. Чтобы начать помогать, достаточно заполнить форму на сайте проекта. Вы идеально подходите, если:

владеете грамотной литературной письменной речью;
умеете емко и четко облекать мысли в слова и описывать то, что видите;
вы ответственный человек с адекватной реакцией на критику.

Вариант второй: рассказать о проекте друзьям. Возможно, в их окружении есть потенциальный пользователь сайта. Или среди ваших знакомых найдется тот, кто сможет сделать качественное описание.

Вариант третий: можно материально поддержать «Опишишку» (так основатели любовно называют проект), единовременно или с приемлемой для вас регулярностью.

30 октября 2020