Open Agent Leaderboard — как оценить эффективность AI-агентов

Система Open Agent Leaderboard для комплексной оценки ИИ-агентов: универсальность, планирование, память, инструменты, Exgentic, SWE-Bench, BrowseComp+, AppWorld, tau2-Bench.

Система Open Agent Leaderboard комплексно оценивает ИИ-агентов. Внимание уделяется не только возможностям отдельной модели, но и всей системе агента целиком. Это включает планирование, память и работу с инструментами.

Главный критерий — универсальность

Основной упор делается на универсальность. Агент должен справляться с разными задачами без дополнительной настройки. Важна и экономичность. Ошибки обходятся дорого: поломка агента может стоить на 20–54% дороже, чем его успешная работа.

Единый подход к тестам

Для оценки используется фреймворк Exgentic, обеспечивающий единообразие задач. Каждая задача включает цель, контекст и допустимые действия. Все методики и результаты открыты, что позволяет сообществу проверять агентов.

Разнообразие тестовых сценариев

Набор тестов охватывает шесть областей, проверяя реальные задачи в различных условиях. Например, SWE-Bench Verified тестирует исправление кода, BrowseComp+ — поиск информации в интернете, а AppWorld — работу с приложениями.

Тесты tau2-Bench предназначены для оценки следования правилам компании в сфере обслуживания и для тестирования техподдержки в телекоме.

Что показывают результаты

Выбор модели остается ключевым фактором, но архитектура агента также имеет значение. Особую роль играет выбор инструментов: это сужает фокус агента и помогает избежать ошибок. Универсальные агенты становятся конкурентными и часто превосходят специализированные системы.

Открытые модели, например DeepSeek V3, пока отстают. Они уступают закрытым решениям на 18–29 процентных пунктов.

Польза для бизнеса

Open Agent Leaderboard помогает бизнесу сравнивать успешность и стоимость выполнения задач. Это позволяет выбрать оптимальный вариант и понять, где именно агент нуждается в улучшении: в модели, запросах или архитектуре.

Присоединяйтесь к разработке

Платформа открыта для сотрудничества: вы можете добавить собственных агентов, упаковав их в Exgentic, интегрировать новые тесты или прислать результаты для открытых моделей.

Ранее по теме
Microsoft и OpenAI: новое ИИ-партнерство до 2032 года

Больше новостей в нашем Телеграм. Подпишись!

Ссылка на источник тык.

Read more

Логотипы иконки AI-браузеров: Perplexity Comet, Dia, Neon, Atlas, Brave, DuckDuckGo, Vivaldi, SigmaOS. Обзор инновационных браузеров.

Битва AI-браузеров: как новые инструменты автоматизируют рутину

Perplexity’s Comet Comet — это браузер с поддержкой AI от Perplexity. Он функционирует как поисковый движок на базе чат-бота и способен автоматизировать рутинные задачи, такие как суммирование писем, просмотр веб-страниц и назначение встреч в календаре. Comet доступен по платной подписке «Max», стоимость которой составляет 200 долларов в месяц. Браузер автоматизирует

Изображение: фейковый AI-блогер с логотипами нейросетей, олицетворяющий мошенничество в соцсетях и продажу товаров.

Мошенники используют ИИ-блогеров для выманивания денег

Мошенники создают виртуальных блогеров с помощью нейросетей. Эти персонажи «жалуются» на жизнь, чтобы втереться в доверие и продать бесполезный товар. Как работают эти мошенники Схема проста: в день создаются сотни поддельных профилей. Например, аккаунт "Aliyahsbuckles" собрал 40 тысяч подписчиков и миллионы просмотров, переупаковывая чужой контент для продажи дешевых

Онлайн-сервис Past Maps, наложение старых карт на современные данные, использование AI для OCR и автоматизации, модель подписки, исторические исследования.

ИИ сократил время техподдержки Past Maps в 6 раз

Past Maps — это онлайн-сервис, который накладывает старые карты на современные географические данные. Он полезен для историков, генеалогов, исследователей и специалистов, например, нефтяников, изучающих старые скважины. Рост популярности и новая модель дохода За три года число пользователей Past Maps выросло с 20 000 до 300 000 в месяц. Сервис перешел от

Разработчик работает за компьютером, на экране код и символы ИИ. Графики показывают снижение продуктивности и рост техдолга из-за ИИ.

ИИ-помощники снизили производительность разработчиков и увеличили долги

Зависимость от ИИ-помощников стала нормой: многие разработчики уже не готовы писать код без поддержки нейросетей. Это меняет стандартные рабочие процессы в IT. Исследования 2025 года показали: ожидания от ИИ часто разбиваются о реальность. Вместо обещанного ускорения задачи стали занимать больше времени из-за отладки, настройки и ожидания ответов нейросетей. К февралю

Хочешь больше информации про автоматизацию и AI?

В ТГ-канале «Дети нейросети» рассказываю про автоматизацию бизнеса.

Автоматизироваться
Дети Нейросети © 2026