Изображения, сгенерированные нейросетями
Авторы сетевого издания о цифровых технологиях в гуманитарных науках, искусстве и образовании «Системный Блокъ» провели эксперимент и попробовали определить границы возможностей нейросетей Midjourney, DALL-E и Kandinsky. Они сумели обозначить, на что способен искусственный интеллект и с какими проблемами при генерации изображений сталкиваются пользователи.
В октябре 2023 года команда авторов проверила, как искусственный интеллект сможет справиться с отрицаниями, как будет визуализировать абстрактные понятия и метафорические значения. Анастасия Адамова, Даниил Сергеев, Анна Старовойтова, Екатерина Власенкова, Илья Крисанов и Семён Раентович провели исследование. Они выяснили, как нейросеть будет демонстрировать предметы без их сущностной составляющей: кофе без кофеина, пончик без сахара. Каким образом нейросеть справилась с этим?
В ходе эксперимента проявилась особенность искусственного интеллекта — его невосприимчивость к предлогу «без». Алгоритм его проигнорировал. Выяснилось, что нейросеть также исключает отрицание «не» в случаях генерации изображений с конкретными условиями. Так, при внесении запроса «мужчина без усов» нейросеть выдавала противоположный результат.
Источник: нейросеть Kandinsky, запрос: мужчина без усов
Еще одной проблемой для нейросети стала визуализация оксюморонов, которая отражается в сочетании несочетаемого. Дело в том, что искусственный интеллект перед преобразованием текста в изображение переводит введенную информацию на английский язык. Фраза «пожилой пионер» под воздействием нейросети обретает новый смысл: программа визуализирует первопроходца, который многое повидал на своем веку. Мы понимаем смысл этого изображения, прибегая к английскому переводу слова pioneer — «первооткрыватель».
Также авторы «Системного Блока» решили изучить, как нейросети работают с пословицами: снова подтвердилось предположение о том, что запросы переводятся на английский язык. Искусственный интеллект визуализирует их буквально: пословица «У семи нянек дитя без глазу» обозначается изображением поваров, которые готовят невообразимое блюдо. Дословный перевод этого крылатого выражения на английский звучит так: «слишком много поваров портят бульон». Нейросеть не анализирует фразу целиком, а разбивает пословицу на отдельные словосочетания и комбинирует их между собой. Именно это деление фразеологизма на отдельные слова и части приводит к искажению значения и смысла. Так, няньки из пословицы становятся поварами, а в крылатом выражении «Беречь как зеницу ока» глаз превращается в яблоко.
В результате исследования авторы «Системного Блока» пришли к мнению, что «области применения навыка визуализации абстракций и метафор остаются крайне туманными, однако, если наша цель — подражание человеку, то мы можем однозначно сказать, что на данный момент ИИ выполняет лишь механический процесс». Нейросети не обладают творческим и абстрактным мышлением, а лишь воспроизводят знания человека, работают с базами созданных текстов и изображений.
Автор: Мария Шадрина
За помощь в подготовке текста благодарим куратора с направления Digital Humanities Анну Кочановскую.
Фото на обложке: unsplash.com
