Обложка статьи

ИИ, но агенты

Время прочтения
Время прочтения: 1 минута

Скорее всего, вы хотя бы раз использовали ChatGPT для создания картинок или просили его найти что-то в интернете. Сейчас этой функциональностью никого не удивить, однако такие возможности появились относительно недавно. Но как языковая модель, предназначенная только для генерации текста, способна на это?

Тайный Умный агент

Представим программу, которая понимает человеческий язык и умеет взаимодействовать с окружением, чтобы максимально точно и полноценно выполнить запрос пользователя. Такой алгоритм называется агентом. У него есть две главные части: ИИ-модель, выполняющая функции мозга, а также инструменты, в некотором смысле являющиеся телом.

Изображение

Источник: freepik.com

Первая отвечает за планирование и рассуждение. Именно эта часть помогает принимать решения и выбирать нужный инструмент в зависимости от ситуации и запроса пользователя. Чаще всего в качестве ИИ используются большие языковые модели, которые по входному тексту генерируют новый. Вторая часть представляет из себя набор всех возможных действий, которые доступны агенту. Например, генерация картинок или поиск в интернете.

Как агенты используют инструменты?

Большие языковые модели способны на многое, но только если это осуществимо с помощью генерации текста. Открыть браузер и ввести что-то в поисковую строку они не могут. Однако как-то же они ищут для нас информацию в интернете. Все дело в том, что языковая модель напрямую не использует инструменты. Она лишь говорит как и какое действие совершить, а вот реализует это программа, которая также отвечает за работу языковой модели. При этом инструменты используются во время генерации, ненадолго прерывая ее. После выполнения действия, результат добавляется ко входному тексту, и работа модели продолжается с новыми данными.

Таким образом, модель анализирует предоставленные ей данные и инструменты, думает, как лучше всего решить поставленную задачу, и просит программу выполнить какие-то действия.

Не веб-поиском и генерацией картинок единым

Агенты — достаточно мощная и универсальная технология. Программисты могут дать совершенно разные возможности модели. Достаточно лишь написать код и объяснить нейросети, как использовать новый инструмент. Так, агенты могут запланировать встречу в календаре, добавить в корзину товар в онлайн магазине, сохранить какую-то важную информацию или даже взаимодействовать с компьютером напрямую.

Фото на обложке: freepik.com

20 августа 2025