AI-агенты на основе LLM и мультиагентные системы

AI агенты

Поделиться:

Введение

ChatGPT и другие современные LLM и мультимодальные модели могут отвечать на вопросы, генерировать текст, анализировать изображения для распознавания объектов или выявления паттернов.

Но есть одна проблема, которую им ещё предстоит преодолеть научиться самостоятельно решать трудоёмкие задачи, состоящие из отдельных этапов

Сегодняшние модели искусственного интеллекта напоминают стажёров: замотивированных и энергичных, но при этом требующих постоянного контроля. Они делают ошибки в вычислениях и иногда уверенно выдают вымышленные данные.

Именно поэтому разрабатываются AI-агенты, основанные на LLM: они используют большие языковые модели (LLM), чтобы понять запрос пользователя, разбить его на более простые шаги и выполнить их последовательно или параллельно, в зависимости от логики процесса.
AI-агенты сохраняют результаты каждого этапа и используют их на следующих шагах, если это необходимо. Они способны решать сложные задачи и обращаться к различным инструментам и моделям. Например, агент может самостоятельно выбрать использование видео- или голосовых моделей, а также использовать поисковые системы или вычислительные инструменты для достижения цели.

Первые AI-агенты появились в 2023 году — это AutoGPT и BabyAGI. BabyAGI был разработан для автоматизации повторяющихся задач и стал первым реальным примером использования AI-агентов в этой сфере. Важной особенностью BabyAGI была его способность адаптироваться к изменениям условий, что стало важным отличием от, например, популярного в то время RPA.

Надо сказать, что кроме LLM-агентов существуют и несколько других типов AI-агентов: реактивные, агенты с Reinforcement Learning или Transfer Learning и другие. В этой статье мы рассмотрим агенты, построенных на больших языковых моделях (LLM).

Что такое AI-агент?

На базовом уровне AI-агент — это программное обеспечение, которое самостоятельно планирует и выполняет задачи.

  • Простые агенты — выполняют конкретные операции, например, перевод денег или поиск нужного документа.
  • Продвинутые агенты: обладают памятью, понимают контекст и справляются с сложными задачами. Например, такой агент не просто найдёт вам документ, но и организует встречу, проанализирует данные и предложит решения.

Когда одного агента недостаточно: мультиагентные системы (MAS)

Когда задача становится слишком сложной для одного AI-агента, используются мультиагентные системы (MAS). Это сеть агентов, где каждый выполняет свою часть работы, а вместе решают сложные задачи.

Например, вот как могут использоваться агенты в покупке недвижимости:

  1. Один агент мониторит цены и предлагает варианты, которые соответствуют вашим запросам.
  2. Второй агент сравнивает кредитные ставки и ищет лучшие условия.
  3. Третий — организует обмен данными с банками, страховыми компаниями и другими участниками сделки.

В логистике мультиагентная система может быть такой:

  1. Один агент управляет складом, отслеживая запасы.
  2. Второй отвечает за транспортировку и оптимизацию маршрутов.
  3. Третий — распределяет заказы по клиентам.

Каждый агент работает над своей задачей, а их взаимодействие обеспечивает эффективность всей цепочки поставок.

Преимущества мультиагентных систем

Мультиагентные системы предлагают несколько преимуществ по сравнению с одиночными агентами:

  1. Специализация: Каждый агент может фокусироваться на определённой задаче, а разные агенты могут объединяться для выполнения более сложных задач.
  2. Параллелизация: Возможность запускать несколько копий одного и того же агента, что ускоряет выполнение задач.
  3. Снижение затрат и задержек: Вместо одного агента с доступом к тысячам инструментов, мультиагентная система может распределить нагрузку, используя менее мощные, но более быстрые модели для работы с небольшим набором инструментов.

Ограничения мультиагентных систем

  1. Организация взаимодействия. Агенты могут действовать самостоятельно, но это приводит к неконтролируемым процессам.
    Необходимо внедрять строгие правила взаимодействия между агентами.
  2. Промышленная эксплуатация и масштабируемость. Сегодня большинство агентов реализованы как функции в Jupyter Notebook. Для промышленного применения нужно разрабатывать подходящую архитектуру сервисов, которая обеспечивает стабильность и масштабируемость.

Современные инструменты для построения мультиагентных систем

Появляются специализированные фреймворки, которые упрощают разработку и управление мультиагентными системами, например, Llama Agents или GigaGraph. GigaGraph – часть GigaChain SDK, основанный на форке LangGraph. Он представляет мультиагентные системы в виде графов, где вершины обозначают агентов, а рёбра — переходы между их состояниями..

Чем отличаются AI-агенты от LLM?

LLM обучены на больших массивах данных и отлично справляются с ответами на вопросы. Однако их возможности ограничены данными, на которых они были обучены. Например, модель не сможет сказать, когда пройдёт осенняя конференция Analyst Days 2024, если информация о конференции появилась уже после завершения обучения модели. А ИИ-агенты подключаются к системам в реальном времени (например, API или базам данных) для получения актуальной информации.

Также AI-агенты не только ищут и предоставляют данные из внешних источников, а и планируют шаги для решения задачи и выполняют действия. Например, агент сможет не только узнать дату конференции, но и зарегистрировать вас, забронировать билеты и внести событие в календарь.

Другими словами, AI-агенты используют LLM не только для синтеза информации, но и для этапов понимания и обработки запроса и сочетают в себе анализ данных, рассуждения и выполнение действий.

Лирическое отступление или LLM и AI-агенты через призму «Думай медленно, решай быстро» Даниэла Канемана

Если Вы читали «Думай медленно, решай быстро» Даниэла Канемана (или как я, не осили книжку, но слушали лекции по психологии в Level One у Кристины Иваненко), то понятным примером различий между работой самих LLM и LLM-агентов станет аналогия с приведёнными Канеманом Системой 1 и Системой 2. Если очень упростить, то Система 1 действует быстро и интуитивно, а Система 2 — медленно и используя аналитические размышления.

LLM работают как Система 1 у Канемана. Они моментально генерируют текст или анализируют данные, опираясь на огромные объёмы информации, на которых были обучены.

  • Плюсы: скорость. Модели находят закономерности в данных и моментально выдают результат.
  • Минусы: нет логики. Работают как «черный ящик», не объясняют свои решения, ошибаются (или, как принято говорить, «галлюцинируют»).

AI-агенты на основе LLM добавляют к LLM черты Системы 2. Это сложные системы, которые используют LLM, но способны анализировать, выстраивать план решения, выполнять действия и корректировать план в зависимости от результатов выполнения шагов.

  • Плюсы: Аналитический подход, способность объяснять свои действия. Агент может корректировать LLM, задавать уточняющие вопросы и принимать решения на основе логики.
  • Минусы: Работают медленнее и сложнее в разработке.
  • Пример: AI-агент в медицине сначала использует LLM для анализа симптомов пациента, но затем добавляет проверку гипотез, сопоставляет данные и объясняет свой вывод.

Идеальная комбинация

LLM — это скорость, а AI-агенты — это аналитика и сложные решения. Они отлично работают вместе: модели быстро обрабатывают данные, а агенты превращают их в надежные и объяснимые выводы и выполняют действия.

LLM AI-агенты как Система 1 и Система 2 у Канемана

Как работает ИИ-агент?

Итак, ИИ-агенты отличаются от традиционных программ тем, что могут самостоятельно планировать действия, адаптироваться к изменениям и взаимодействовать с различными системами. Они анализируют задачу, создают последовательность шагов для её решения, и выполняют их, а в случае необходимости — вносят изменения.

Работа ИИ-агента, основанного на LLM

Вот как это происходит:

Шаг 1. Постановка задачи

Пользователь формулирует запрос на естественном языке, например «Найди и забронируй самый дешёвый рейс из Москвы в Новосибирск 29 ноября».

Шаг 2. Анализ и планирование

Агент интерпретирует запрос, определяет его цель и ограничения (например, бюджет, время отправления) и выбирает инструменты для выполнения.

Шаг 3. Создание процесса (workflow)

Агент разбивает задачу на конкретные этапы, например:

  • Отправить запрос в систему поиска рейсов.
  • Получить список доступных вариантов.
  • Применить фильтры по цене и времени.
  • Составить список лучших предложений.

Шаг 4. Выполнение и корректировка

Агент выполняет запланированные шаги из workflow. Например, запрашивает данные через API, анализирует результаты и взаимодействует с другими системами для реализации задачи.

Шаг 4.1. Корректировка (feedback loop)

Если результат не соответствует ожиданиям (например, отсутствуют доступные рейсы), агент возвращается к этапу генерации workflow, внося изменения. Корректировка может включать:

  1. Уточнение параметров задачи (например, изменение бюджета или даты вылета).
  2. Изменение инструментов (например, использование другого API).
  3. Применение методов Reinforcement Learning для улучшения следующих действий.

Шаг 5. Результат

Агент предоставляет результат пользователю в удобной форме. Это может быть текстовый ответ, список рейсов, визуализация или даже результат полностью выполненного действие, такое как оформленный билет.

Основные компоненты AI-агента

Компоненты AI-агента

1. Пользовательский интерфейс

Пользовательский интерфейс AI-агента включает в себя возможность пользователю ввести инструкции. Это может быть поле для ввода текста, голосового сообщения или мультимодальный интерфейс, включающий обработку изображений и других типов данных.

Этот компонент обеспечивает обработку естественного языка (NLP), что позволяет определить намерения пользователя, интерпретировать текст и передать информацию для дальнейшей обработки.

Для создания пользовательских интерфейсов есть специализированные инструменты c открытым исходным кодом, например, Rasa или Dialogflow.

2. Модель

Основой любого AI-агента является AI-модель. Чаще всего это большая языковая модель (LLM). Примеры таких моделей включают в себя Gemini, PaLM 2 Text-Bison, ChatGPT, GigaChat, YandexGPT, LLama и другие.

LLM сегодня довольно много, и выбор подходящей зависит от многих параметров. Послушать лекцию «Бенчмаркинг: как сравнивают LLM?» Владимира Владимировича Крылова на эту тему можно здесь. Есть и много подробных сравнительных статей, например, эта. Хорошую подборку открытых LLM разместили на github.

Также важно помнить, что качество работы агента напрямую зависит от данных, на которых обучалась его модель. Если в обучающем наборе данных не было данных, связанных с конкретным вариантом использования, агент будет работать плохо. Это особенно актуально для специализированных задач, когда в Интернете и других доступных источниках может быть недостаточно релевантных данных.

3. Контур рассуждений (Reasoning Loop)

Контур рассуждений — это ключевая часть работы AI-агента, которая помогает разбивать задачу на последовательные шаги и принимать решения. После ввода задачи агент анализирует её, строит план и пошагово выполняет действия.

Например, при организации поездки агент сначала выбирает подходящие даты, затем ищет рейсы, бронирует отель и учитывает дополнительные детали, такие как такси или страховка.

Фреймворки для рассуждений в ИИ-агентах

Шаги для решения задачи могут быть организованы в виде цепочки, дерева или графа. Фреймворки задают структуру и организуют процесс рассуждений агента.

  • Для линейных задач подходит фреймворк Chain of Thought (CoT), где каждое действие следует за предыдущим. Этот фреймворк используется в OpenAI o1.
  • Для более сложных задач используются фреймворки Tree of Thought или Graph of Thought, которые учитывают несколько возможных вариантов развития событий.

Подробнее описание логики фреймворков рассуждений представлено ниже:

Chain of Thought (Цепочка мыслей)

Этот фреймворк позволяет агенту пошагово анализировать задачу. Вместо того чтобы сразу выдать конечный результат, агент разбивает процесс на логические этапы. Это особенно полезно для многошаговых задач, таких как расчёты, планирование или анализ.
Пример: Агент решает математическую задачу, поэтапно выводит промежуточные шаги.

Tree of Thought (Дерево мыслей)

Tree of Thought расширяет возможности Chain of Thought, позволяя агенту рассматривать несколько вариантов решений одновременно. Агент проектирует набор возможных исходов и выбирает оптимальный. Этот подход используется для задач с неопределённостью или множеством возможных исходов.
Пример: При разработке маркетинговой стратегии агент анализирует различные сценарии (например, использование разных рекламных каналов) и выбирает наиболее эффективный.

Graph of Thought (Граф мыслей)

Graph of Thought подходит для сложных задач с множеством взаимосвязанных элементов. Вместо линейной или древовидной структуры агент строит граф, где узлы представляют ключевые данные или этапы задачи, а связи — их взаимозависимости.
Пример: Агент управляет логистической цепочкой, учитывая маршруты, время доставки, запасы и транспортные ограничения.

ReAct (Reasoning and Action): объединение рассуждений и действий

ReAct  — это структура, которая позволяет AI-агенту совмещать анализ и действия в одной итерации. Это позволяет агенту не только рассуждать, но и применять свои выводы на практике и корректировать их в зависимости от новых данных.

ReAct предлагает языковым моделям (LLM) генерировать логические цепочки рассуждений и действия. Модель строит план, проверяет результаты своих действий на каждом шаге и обновляет рассуждения в режиме реального времени.

Например, как сработает ReAct, при выполнении запроса «Где проходит осенняя конференция Analyst Days 2024, и сколько номеров в отеле, где она проводится?»:

  1. Рассуждение: нужно найти место проведения осенней конференции Analyst Days 2024.
  2. Действие: искать информацию о месте проведения.
  3. Результат выполнения действия: осенняя конференция Analyst Days 2024 пройдёт 22-23 ноября в отеле «МонАрх Москва» по адресу: Москва, Ленинградский проспект, 31А, стр. 1.
  4. Рассуждение: теперь нужно узнать количество номеров в этом отеле.
  5. Действие: найти информацию о количестве номеров.
  6. Результат выполнения действия: в отеле «МонАрх Москва» 366 номеров.
  7. Результат выполнения задачи: конференция Analyst Days 2024 проходит в отеле «МонАрх Москва» в Москве, который располагает 366 номерами.

Инструменты (Tools)

После планирования своих действий AI-агенты используют инструменты и API для выполнения задач. Это ключевой этап их работы, позволяющий взаимодействовать с внешними системами и получать данные в реальном времени.

Какие инструменты используют AI-агенты?

После планирования своих действий AI-агенты используют инструменты для выполнения задач. Это ключевой этап их работы, позволяющий взаимодействовать с внешними системами и получать данные в реальном времени.

Какие инструменты используют AI-агенты?

  1. API-интеграции — позволяет агентам подключаться к внешним сервисам. Например, для поиска авиабилетов AI-агент может использовать API авиакомпаний, чтобы получать данные о рейсах в реальном времени.
  2. Расширения (Extensions) — обеспечивают доступ к специализированным сервисам и системам.
  3. ранят информацию о предыдущих взаимодействиях, что позволяет AI-агенту учитывать контекст.
  4. Вызов функций — агент может использовать функции систем, чтобы выполнять конкретные действия. Например, он может создать событие в календаре через Google Calendar API, рассчитать стоимость доставки на e-commerce платформе, провести сложные вычисления и так далее.

Например, представьте, что вы хотите организовать встречу:

  1. Агент проверяет ваш календарь через Google Calendar API и находит свободное время.
  2. Он анализирует доступность переговорных комнат через внутреннюю корпоративную систему.
  3. Далее агент бронирует переговорную и отправляет приглашения участникам через email-сервис.
  4. После получения подтверждений агент сообщает вам, что встреча запланирована.

Если агент сталкивается с ограничениями, например, отсутствием свободных комнат, он запрашивает у пользователя дополнительные параметры (например, время или формат встречи). Получается, что если посмотреть на ситуацию с точки зрения агента, то и сам пользователь тоже рассматривается агентом, как всего лишь один из инструментов (звучит, конечно, даже немного обидно).

5. Память

Память — это важный компонент, который позволяет AI-агентам хранить информацию о прошлых взаимодействиях и использовать её в будущем. Это помогает поддерживать контекст, персонализировать ответы и адаптироваться к предпочтениям пользователя.

Например, если пользователь регулярно запрашивает рекомендации фильмов, агент может запомнить его предпочтения (жанры, актёров) и предлагать более релевантные варианты. Такой подход особенно полезен в системах поддержки клиентов и персонализированных ассистентах.

Для длительного хранения данных агенты используют векторные базы данных, такие как Pinecone или Weaviate. Эти базы данных обеспечивают быстрый доступ к информации и позволяют эффективно искать релевантные данные.

Память также используется в цикле обратной связи: если результат действий агента не соответствует ожиданиям, он отправляется на доработку. Это позволяет агенту улучшать свои решения на основе прошлого опыта.

6. Интеграция и оркестрация

AI-агенты должны интегрироваться с различными системами и координировать выполнение задач.

Интеграция включает подключение к базам данных, сервисам управления и другим внешним системам. Например, в HR-системах агент может проверять резюме кандидатов, планировать интервью в календаре и отправлять автоматические уведомления, при этом предотвращать утечку конфиденциальных данных с учётом требований политики управления безопасностью.

Оркестрация обеспечивает распределение задач между различными компонентами и их выполнение в нужной последовательности. Например, в процессе обработки заказа агент может:

  • Проверить наличие товара на складе.
  • Рассчитать стоимость доставки.
  • Оформить транзакцию через платёжную систему.

Путаница в терминах вокруг AI-агентов

Сегодня на рынке отсутствует единое понимание термина «ИИ-агенты». Разные компании — поставщики используют его для обозначения технологий с различным уровнем сложности и автономности, что приводит к путанице.

Например, Microsoft называет Copilot агентом, однако этот инструмент в первую очередь служит для поддержки пользователя в выполнении конкретных задач, таких как написание кода или управление рабочими процессами. Salesforce с Einstein AI обозначает своими агентами аналитических ассистентов, которые помогают в обработке данных и автоматизации бизнес-процессов, например, в CRM. Google Assistant и Яндекс Алиса позиционируются как голосовые помощники, фокусирующиеся на взаимодействии с пользователем и интеграции с экосистемами, такими как умный дом. Amazon Alexa имеет схожий функционал, а решения от Nanosemantics чаще всего работают в рамках строго заданных сценариев и не демонстрируют высокой степени автономности.

Эта размытость терминологии нередко приводит к тому, что в одну категорию попадают как простые чат-боты, выполняющие строго регламентированные задачи, так и сложные ИИ-агенты, способные анализировать данные, адаптироваться к изменениям и инициировать действия.

Компании — покупатели тоже видят ИИ-агентов по-разному.

  1. как обычные LLM;
  2. как помощников (copilots);
  3. как аналоги RPA;
  4. как автономных ботов.

Ближе всего к определению Gartner — это боты, которые могут работать самостоятельно.

Отличие AI-агентов от других решений

Чем отличаются ИИ-агенты от LLM: планированием и выполнением задач

LLM обучены на больших массивах данных и отлично справляются с ответами на вопросы. Однако их возможности ограничены данными, на которых они были обучены. Например, модель не сможет сказать, когда пройдёт осенняя конференция Analyst Days 2024, если информация о ней появилась уже после завершения обучения модели.

А ИИ-агенты подключаются к системам в реальном времени (например, API или базам данных) для получения актуальной информации. Более того, они не просто предоставляют данные, а выполняют задачи. Например, агент сможет не только узнать дату конференции, но и зарегистрировать вас, забронировать билеты и внести событие в календарь. Агент сочетает анализ данных с автономным выполнением действий.

Чат-боты выдают заранее определённую информацию, а ИИ-агенты анализируют, рассуждают и действуют.

Чат-боты следуют заранее запрограммированным сценариям, которые необходимо настраивать вручную. Например, чат-бот может ответить на вопрос: «Как восстановить пароль?» — но не может выполнить эту задачу за пользователя.

ИИ-агенты, в отличие от чат-ботов, действуют более автономно. Они способны интегрироваться с корпоративными системами, такими как служба безопасности, и самостоятельно выполнять действия, например сброс пароля, соблюдая заданные правила.

Чат-боты действуют по предопределённым сценариям. Они не способны рассуждать или адаптироваться изменениям. ИИ-агенты анализируют контекст, принимают решения на развилках процессов, планируют следующие шаги и сами выполняют действия.

Чем отличаются ИИ-агенты от сopilots

Copilot — это интеллектуальный ассистент, который работает в связке с человеком. Его задача — предложить варианты решений, подсказать подход или ускорить выполнение задачи. Однако конечные действия, их проверка и принятие решений остаются за пользователем.

Например, GitHub Copilot помогает разработчикам, предлагает фрагменты кода, которые пользователь может проверить, доработать и запустить. Или Microsoft Copilot интегрирован в продукты Microsoft 365 (Excel, PowerPoint, Word) и упрощает создание документов, анализ данных и генерацию презентаций. Например, на основе данных из Excel можно быстро сгенерировать презентацию и получить предложения по улучшению дизайна и содержимого. При этом финальное решение всегда остаётся за пользователем.

А ИИ-агент может решить задачу целиком: спланировать шаги, выполнить их и внести изменения, если условия изменятся.

Сopilot помогает и направляет, оставляя финальные решения за пользователем, а агент выполняет задачи самостоятельно, действует в соответствии с долгосрочными целями и контекстом.

Очень упрощённо различия можно описать так:

  • Если агент передает сложные задачи человеку — это сopilot.
  • Если выполняет процесс самостоятельно и только при необходимости обращается за помощью к пользователю — это ИИ-агент.

Чем отличаются ИИ-агенты от RPA (Robotic Process Automation)

RPA автоматизирует рутинные задачи, например, перенос данных из одной системы в другую, заполнение форм или выполнение повторяющихся действий в интерфейсах приложений. Это строгое, детерминированное решение, работающее по заранее прописанным правилам. Если процесс или данные изменяются, RPA не сможет адаптироваться без вмешательства разработчиков для внесения изменений в логику.

ИИ-агенты анализируют контекст задач, принимают решения на основе текущих данных и могут адаптироваться к изменениям в процессе или данных. Например, если структура данных изменилась, агент сможет распознать это и скорректировать свои действия без необходимости внесения изменений в код.

Основное различие: RPA работает по фиксированным правилам и сценариям, требует обновлений при любых изменениях, а ИИ-агенты могут автономно корректировать свои действия в зависимости от результатов выполнения шагов процессов.

Как определить уровень автономности агента?

Чтобы понять уровень автономности агента, нужно ответить на вопросы:

  1. Может ли агент сам выбирать шаги?
  2. Понимает ли, какие инструменты доступны?
  3. Решает ли, когда что-то делать?
  4. Способен ли сам планировать и корректировать действия?

Чем больше «да» в ответах, тем выше автономность агента. Самый высокий уровень — это проактивные агенты, которые действуют полностью автономно.

Где уже работают ИИ-агенты, ИИ-ассистенты и вторые пилоты (copilots)

Кибербезопасность. В сфере кибербезопасности AI-агенты анализируют огромные объёмы данных и выявляют потенциальные угрозы в режиме реального времени. Компании, такие как Tork, используют агентов для мониторинга и анализа сетевого трафика, что помогает быстро реагировать на кибератаки.

Клиентская поддержка. ИИ-агенты и copilots уже сейчас широко используются для автоматизации обработки запросов и обращений. Например, Salesforce Einstein Agent автоматически обрабатывает простые запросы и передааёт сложные вопросы специалистам.

Персональные ассистенты. В повседневной жизни AI-агенты помогают планировать встречи, управлять расписанием и находить информацию. Компании, такие как MultiOn, разрабатывают ИИ ассистентов, которые помогают пользователям организовать рабочий день.

Продажи. Быстро собирают данные о продуктах и клиентах, применяют правила динамического ценообразования и генерируют персонализированные предложения.

Бизнес-процессы. Специализированные ИИ решения оптимизации бизнес-процессов, например, Workato, объединяют системы и автоматизируют сложные задачи, делая процессы проще и быстрее.

Новая роль — агенты-защитники. Одной из проблем является защита автономных агентов от вмешательства злоумышленников. Это приводит к появлению так называемых «агентов-защитников» — агентов, которые контролируют других агентов. Задачи агентов-защитников:

  • Обеспечение безопасности операций.
  • Проверка корректности работы других агентов.
  • Защита данных и предотвращение злоупотреблений.

Например, в банке агент-защитник может следить за финансовыми транзакциями и предотвращать мошенничество.

Вертикально-специализированные агенты. Компании разрабатывают своих ИИ-агентов для решения специализированных задач. Для этого чаще всего используется фреймворк LangChain.

Не доверяй и проверяй

Что чаще всего тревожит в использовании искусственного интеллекта?

  • Агент может ошибаться: предлагать неверные решения или «придумывать» факты.
  • Непрозрачная обработка персональных и корпоративных данных.
  • Отсутствие объяснений: агенты редко поясняют логику своих выводов.
  • Неконтролируемое распространение агентов.
  • Использование данных низкого качества.
  • Кибератаки с умным вредоносным ПО становятся реальной угрозой.

Поэтому для того чтобы доверять AI-агентам, важно решить три основные задачи: понимать, на каких данных основаны их выводы, убедиться в защите конфиденциальной информации и обеспечить прозрачность их работы и контроль.

Борьба с «галлюцинациями»

ИИ может генерировать логичные и убедительные, но неверные решения, особенно если ему не хватает опоры на реальные действия или данные. Это называется «галлюцинациями». Эта проблема связана с особенностями больших языковых моделей (LLM), которые генерируют правдоподобные тексты, но не всегда проверяют их точность. Модель может придумать факт, основываясь на неполной информации из обучающего набора данных.

AI-агенты могут компенсировать эту проблему, используя технологии, такие как Retrieval-Augmented Generation (RAG). Эта технология позволяет агенту обращаться к внешним источникам данных, например, к специализированным базам знаний или поисковым системам, чтобы уточнять ответы модели. Агент объединяет возможности LLM с дополнением промптов и проверкой данных.

Безопасность данных

Но с ростом возможностей ИИ агентов растут и риски. Поэтому обеспечение безопасность данных — это не просто техническая необходимость, а ключевой фактор доверия к ИИ агентам.

Например, в HR-системах ИИ агенты могут использовать такие данные, как зарплаты, контакты и история работы сотрудников. Доступ к этим данным должен предоставляться только уполномоченным пользователям.

Важную роль играет шифрование данных при хранении и передаче. Также обязательно нужно контролировать доступ, использовать аутентификацию, обеспечивать аудит действий.

Также нужно иметь возможность проверить, какие данные используются, где и как они хранятся, кто и когда имел к ним доступ. Для этого AI агенты обеспечивают логирование действий и описание, почему он запрашивает доступ к определённым данным и как он использует их для выполнения задачи.

Прозрачность и объяснения

Работа ИИ агента не должна быть черным ящиком. Для доверия к AI-агентам пользователи должны понимать, как принимаются решения на каждом шаге: какие данные анализировались, какие результаты получены и почему выбрано конкретное решение. ИИ агенты обеспечивают прозрачность с помощью:

  • Логирования всех действий, от обработки данных до выбора алгоритмов и инструментов.
  • Аудита, позволяющего проверить корректность работы и результатов на каждом шаге.
  • Подготовки объяснений, чтобы пользователь понимал, как рекомендации связаны с целями.
  • Обеспечения контроля пользователем, позволяя человеку утверждать важные действия.

Например, Claude от Anthropic предоставляет объяснения своих решений и даёт пользователям возможность отслеживать весь процесс принятия решений.

На что обратить внимание при внедрении AI-агентов

1. Подготовка архитектуры данных: AI-агентам нужны доступные и качественные данные

«Мусор на входе — мусор на выходе»: эта известная фраза из машинного обучения применима и к разработке приложений на базе LLM. Высокое качество данных — ключевой элемент любого приложения на основе LLM промышленного уровня, в том числе и LLM-агентов.

  • Доступность: Интегрируйте данные из всех используемых источников (CRM, ERP). У нас есть хорошая статья на тему построения архитектуры данных (Как построить архитектуру аналитики данных и превратить обычную компанию в data-driven).
  • Качество: Автоматизируйте обработку, подготовку и интеграцию данных. Детали можно посмотреть здесь: 6 шагов подготовки данных для дата аналитики и машинного обучения.
  • Парсинг данных: Для работы LLM-агентов требуется также слой обработки данных, который преобразует необработанные, неструктурированные или полуструктурированные данные в формат, подходящий для модели. Хороший парсер PDF или PowerPoint — частый компонент для качественной обработки данных. Для работы с документами недостаточно использовать базовые инструменты, такие как PyPDF. Если вы «пропустите» таблицу или диаграмму из финансового отчета через PyPDF, информация «рассыпется»: числа, текст и изображения смешиваются, что приводит к потере смысла и появлению «галлюцинаций». Хороший же парсер может извлечь данные из сложных документов в структурированный формат, что значительно повышает качество данных. Подробнее об этом можно посмотреть в нашей статье «Мультимодальные RAG и VLM против OCR + LLM: Как откровенно поговорить с вашими PDF?»
  • Безопасность: Используйте шифрование и политики разграничения доступа.

2. Подбор инструментов

Каждая задача требует своего подхода. LLM подходят для обработки текста, а для рутинных процессов можно использовать готовые RPA-решения. Например, агент для HR может использовать LLM для составления писем, но подключаться к ATS (системе управления наймом) через API для обработки заявок.

3. Начинайте с простого (или правило KISS)

Не всегда нужны сложные технологии. Если автоматизация задачи (например, обработки счетов) решается готовыми инструментами, используйте их. Использование сложных решений оправдано тогда, когда они приносят значительную добавленную ценность, например, персонализация рекомендаций в e-commerce.

4. Ясные цели и измеримые результаты

Перед внедрением определите, зачем вам агент. Например, цель «Снизить время обработки заявок на 30%» или «Увеличить конверсию на 10%» позволит понять, насколько успешен проект.

5. Тестирование и масштабирование

Запустите агента в ограниченном масштабе: протестируйте на одном подразделении или процессе. Например, агент для поддержки клиентов можно протестировать на одном канале, таком как e-mail.

6. Интеграция и производительность

Интеграция агентов с другими системами (CRM, ERP и другие) — сложная задача. Важно учитывать возможные задержки, например, при передаче данных через API.

7. Мошенники тоже всё знают про ИИ-агентов, поэтому нужны агенты-защитники

Если управление AI-агентом будет скомпрометировано, это может привести к серьёзным последствиям. Например, в банковских системах такой агент может начать выполнять мошеннические действия, передавать конфиденциальные данные или саботировать ключевые операции. Чтобы избежать подобных инцидентов, важно изначально проектировать агентов-защитников — систем, которые будут контролировать работу других агентов и предотвращать сбои. Принцип «AI следит за AI» предполагает, что искусственный интеллект может эффективно выявлять аномалии, отслеживать действия агентов и блокировать попытки атак.

Как будут дальше развиваться агенты?

AI-агенты развиваются, становятся более функциональными, автономными и доступными. Рассмотрим ключевые направления их развития.

Переходный период. Сегодня есть разрыв между текущими ИИ-ассистентами, построенными на больших языковых моделях (LLM), и перспективными полноценными агентами с искусственным интеллектом. Однако этот разрыв постепенно сокращается.

Как будут развиваться AI-агенты

1. Повышение автономности

AI-агенты становятся более автономными, с возможностью принимать решения и адаптироваться к изменениям в реальном времени. Это позволит им выполнять долгосрочные и сложные задачи, такие как управление цепочками поставок или анализ данных в режиме реального времени, без вмешательства пользователя. Например, в логистике агент сможет самостоятельно оптимизировать маршруты доставки, учитывая изменение спроса или задержки.

2. Развитие мультиагентных систем

Будущее за системами, где агенты работают вместе, каждый выполняет свою функцию, а в совокупности решают сложные задачи. В логистике такие системы могут распределять задачи между агентами, отвечающими за транспорт, склад и управление заказами. В финансовом секторе мультиагентные системы будут анализировать риски, прогнозировать тренды и автоматизировать инвестиционные стратегии.

3. Интеграция с бизнес-системами

AI-агенты будут глубже интегрироваться с корпоративными системами, такими как ERP и CRM. Они смогут анализировать данные из разных источников, предоставлять рекомендации и выполнять действия без участия пользователя. В e-commerce, например, агенты смогут анализировать поведение клиентов, предсказывать спрос и автоматически адаптировать предложения.

4. ИИ следит за ИИ

С ростом сложности AI-агентов возрастает и потребность в защите и контроле их работы. Агенты-защитники будут мониторить действия других агентов, предотвращая ошибки или злоупотребления. В банковской сфере такие агенты смогут выявлять подозрительные транзакции или предотвращать действия, вызванные взломом. Этот подход минимизирует риски, связанные с автономностью агентов.

5. Расширение возможностей благодаря памяти и обучению

Агенты будут оснащены долговременной памятью, что позволит им учитывать предыдущие действия и становиться более персонализированными. Например, в HR-системах агенты смогут запоминать детали собеседований и адаптировать рекомендации на основе прошлых взаимодействий. Это улучшит их эффективность в обслуживании клиентов, аналитике и других областях.

6. Снижение порога входа для использования

С развитием интерфейсов и готовых решений AI-агенты станут доступнее для малого и среднего бизнеса. Простые платформы, интеграции no-code/low-code и снижение стоимости технологий позволят внедрять агентов даже небольшим компаниям. Например, маркетинговая компания сможет использовать агента для создания контента, анализа рекламных кампаний и автоматизации отчётности.

7. Формирование доверия и прозрачности

AI-агенты будут развиваться в направлении объяснимости и прозрачности.

Заключение

Генеративные ИИ-агенты — это только начало больших изменений. Они уже сейчас помогают автоматизировать процессы и принимать более точные решения. Потенциал этих технологий очень высокий, и они только начинают развиваться.

Инструменты генеративного ИИ становятся всё доступнее, и мы поможем их внедрить в вашей компании. Запишитесь к нам на демонстрацию, и мы расскажем обо всех тонкостях и поможем найти и настроить подходящее решение.

Статьи по теме

embedding vector semantic search

От слов к векторам: как эмбеддинги помогают моделям понимать нас

Эмбеддинги помогают преобразовать текст в векторы, что позволяет большим языковым моделям (LLM) понимать контекст и давать точные ответы. Они служат «языком», на котором модели «общаются» с нами. Разобравшись, как работают эмбеддинги, можно использовать LLM для решения бизнес-задач.

Извлечение данных: определение, принцип работы и примеры

Извлечение данных — это первый этап в процессе ETL (Extract, Transform, Load), который помогает превратить разрозненные данные из различных источников в ценный ресурс для анализа и ИИ-приложений. Разберёмся, почему извлечение данных играет ключевую роль, как оно работает для различных типов данных, и какие инструменты помогают его автоматизировать.

Multimodal RAG images text VLM

Мультимодальные RAG и VLM против OCR + LLM: Как откровенно поговорить с вашими PDF?

Представьте, что вы можете просто «поговорить» с документом. Именно это делают ИИ-приложения типа «Talk to your PDF» (или «Chat with your docs») — загружаете PDF или другой документ, задаёте вопросы по его содержимому и получаете ответы. Эта возможность ИИ стала одной из самых востребованных для тех, кто работает с многостраничными документами. Однако есть одно «но»:… Читать далее Мультимодальные RAG и VLM против OCR + LLM: Как откровенно поговорить с вашими PDF?

Запросить демонстрацию

Готовы увидеть, как это может работать для вашей организации?

Свяжитесь с нами