Обложка статьи

Прогуляться по грезам нейросети

Время прочтения
Время прочтения: 2 минуты

Вероятно, вы не раз натыкались на видео, созданные искусственным интеллектом. Сегодня генеративный контент почти не отличить от сделанного человеком. Но что, если не ограничиваться только изображениями и видео? Возможно ли создать целые миры, открытые для исследования и взаимодействия?

Учиться во снах

Чтобы не утонуть в огромном объеме информации, человеческий мозг никогда не запоминает все полностью. Вместо того чтобы учить каждую деталь, он сохраняет лишь общие концепты и связи с реальностью. Помимо этого, мозг способен предсказывать будущие состояния окружения для определения наших действий. Так мы интуитивно предугадываем траекторию брошенного предмета и ловим его.

В отличие от нас, нейросети не умеют выделять ключевые детали из окружающей среды и предсказывать ее будущие состояния. Но что, если их этому научить? Именно это и сделали авторы статьи «World Models». Они создали агента-нейросеть, который получает скриншот из 2D-видеоигры, выделяет из него абстрактное представление (преобразование изображения в векторы, понятные компьютеру) и на его основе предсказывает будущее состояние окружения.

Один из экспериментов проводили на игре Doom, выпущенной в 1993 году. Напротив агента стояли несколько врагов, которые выпускали в персонажа огненные шары. Задача нейросети была с помощью перемещения влево и вправо избегать снарядов. Агент получал на вход изображение, где враги запустили огненные шары, после совершал действие и на основе этих данных генерировал новое абстрактное представление, в котором персонаж смещается, а снаряды приближаются.

Таким образом исследователи обучили агента моделировать мир вокруг него. Это позволило не только улучшить работу нейросети, но и тренировать модель в ее «снах».

Изображение

World Models сегодня

Обучение нейросетей для взаимодействия с окружающим миром требует огромного количества реальных действий. Помимо времени, необходимо подготавливать саму среду, в которой тренируется модель. Чтобы избавиться от этих сложностей, создают World Models — нейросети для генерации интерактивных миров. В них агенты могут обучаться передвижению и взаимодействию с объектами. Конечно, пока эта технология не достигла такого уровня, чтобы генерировать целый мир с нуля, но уже существуют модели, способные создавать консистентное на протяжении нескольких минут окружение.

Одной из лучших моделей в этой сфере считается Genie 3 от компании Google, генерирующая миры по текстовому описанию. Ее можно сравнить с нейросетевым игровым движком: в ее симуляциях можно свободно взаимодействовать с окружением и создавать события. Также модель отлично запоминает состояния среды. Например, можно покрасить стену, отвернуться от нее и, если посмотреть снова, она не изменит цвет и не исчезнет. Ранние версии подобных нейросетей очень быстро забывали мир вокруг, из-за чего объекты пропадали. Важная особенность этой модели в том, что как такового окружения она не создает, а лишь генерирует кадры видео, прямо как в статье World Models.

Помимо Google, созданием моделей для генерации мира занимается стартап World Labs. Но, в отличие от Genie, их нейросеть создает 3D-окружение, а не видеоряд. Такой подход дает возможность использовать сгенерированный мир повторно, но вот взаимодействовать с ним не получится.

Помечтаем?

World Models — это один из шагов к созданию сильного искусственного интеллекта, а также полезная технология для более эффективного обучения нейросетей взаимодействию с окружающим миром. Но у таких моделей есть еще один интересный потенциал — создание полноценных видеоигр только с их помощью. Представьте, что вы сможете окунуться в мир, придуманный вами, поговорить с любимыми персонажами, увидеть завораживающие места из фэнтези. Пока что это лишь предел мечтаний, но надеемся, что грезы скоро станут реальностью.

Фото на обложке: unsplash.com

Еще почитать по теме