Новости ИИ

Open Agent Leaderboard — как оценить эффективность AI-агентов

Нейроредакция

18 мая 2026 — 1 min read

Система Open Agent Leaderboard комплексно оценивает ИИ-агентов. Внимание уделяется не только возможностям отдельной модели, но и всей системе агента целиком. Это включает планирование, память и работу с инструментами.

Главный критерий — универсальность

Основной упор делается на универсальность. Агент должен справляться с разными задачами без дополнительной настройки. Важна и экономичность. Ошибки обходятся дорого: поломка агента может стоить на 20–54% дороже, чем его успешная работа.

Единый подход к тестам

Для оценки используется фреймворк Exgentic, обеспечивающий единообразие задач. Каждая задача включает цель, контекст и допустимые действия. Все методики и результаты открыты, что позволяет сообществу проверять агентов.

Разнообразие тестовых сценариев

Набор тестов охватывает шесть областей, проверяя реальные задачи в различных условиях. Например, SWE-Bench Verified тестирует исправление кода, BrowseComp+ — поиск информации в интернете, а AppWorld — работу с приложениями.

Тесты tau2-Bench предназначены для оценки следования правилам компании в сфере обслуживания и для тестирования техподдержки в телекоме.

Что показывают результаты

Выбор модели остается ключевым фактором, но архитектура агента также имеет значение. Особую роль играет выбор инструментов: это сужает фокус агента и помогает избежать ошибок. Универсальные агенты становятся конкурентными и часто превосходят специализированные системы.

Открытые модели, например DeepSeek V3, пока отстают. Они уступают закрытым решениям на 18–29 процентных пунктов.

Польза для бизнеса

Open Agent Leaderboard помогает бизнесу сравнивать успешность и стоимость выполнения задач. Это позволяет выбрать оптимальный вариант и понять, где именно агент нуждается в улучшении: в модели, запросах или архитектуре.

Присоединяйтесь к разработке

Платформа открыта для сотрудничества: вы можете добавить собственных агентов, упаковав их в Exgentic, интегрировать новые тесты или прислать результаты для открытых моделей.

Ранее по теме
Microsoft и OpenAI: новое ИИ-партнерство до 2032 года

Больше новостей в нашем Телеграм. Подпишись!

Ссылка на источник тык.

Логотип TikTok и визуализация процесса поиска ИИ-клонов и защиты авторов от дипфейков

TikTok будет вычислять AI-клоны авторов

Как работает защита от ии-клонов TikTok представил инструмент для поиска незаконных AI-копий авторов. Чтобы им воспользоваться, нужно подтвердить личность через сервис Jumio с помощью селфи и скана паспорта. После проверки система автоматически найдет ваши цифровые образы в сети, что позволит быстро пожаловаться на фейковые аккаунты и посты. Где сервис доступен

Физические продукты OpenAI: баскетбольный мяч ChatGPT и устройство Codex Micro для разработчиков

OpenAI выпустила мерч и клавиатуру Codex Micro

Openai выходит в реальный мир OpenAI перестает быть исключительно цифровым сервисом и создает физический бренд, чтобы стать ближе к аудитории. Теперь компания стремится к узнаваемости за пределами экранов, хотя экспансия в сферу мерча всегда сопряжена с определенным репутационным риском. В рамках кампании Pause. Play. Prompt. появились кепки, бутылки и сумки.

Логотип Google Gemini 3.5 Pro на фоне графика акций Alphabet и символов искусственного интеллекта

Хаос в Google задержал Gemini 3.5 Pro

Внутренние проблемы и технические сбои Google затянул с выпуском Gemini 3.5 Pro из-за организационного хаоса. Четыре подразделения — DeepMind, Cloud, Android и Search — дублировали задачи друг друга, одновременно создавая инструменты для кодинга. Это привело к медленному принятию решений и неоправданному расходу ресурсов. Технические сложности также замедлили процесс: обновленные данные для

Логотипы Apple и OpenAI на фоне концепта AI-устройства и микросхем

Apple пригрозила 40 экс-сотрудникам в OpenAI

Apple против openai: битва за «железо» Apple и OpenAI конкурируют в сфере разработки AI-устройств, что создает ощутимую напряженность между компаниями. Apple заявляет, что это лишь начало. В центре внимания оказались бывшие сотрудники, в частности экс-дизайнер Apple, который теперь руководит аппаратным направлением в OpenAI. Компания действует решительно: юристы разослали предупреждения 40