Новые модели Granite R2 поддерживают 200+ языков
Новые модели Granite Embedding Multilingual R2 решают важную задачу: обеспечивают поддержку множества языков при разумном размере. Эти модели готовы для бизнеса и показывают высокую эффективность. Они поддерживают более 200 языков, а также контекстное окно в 32 768 токенов. Это в 64 раза превышает показатель версии R1.
Особенности моделей
Существует два варианта моделей. granite-embedding-311m-multilingual-r2 — это полная модель со 311 миллионами параметров, которая создает векторы размером 768. Она поддерживает Matryoshka dimension truncation и лучше всего справляется со сложными задачами. granite-embedding-97m-multilingual-r2 — компактная модель с 97 миллионами параметров, выдающая векторы размером 384. Эта модель показывает лучшее качество поиска среди моделей своего размера.
Производительность и архитектура
Показатели производительности заметно улучшились. Модель 97M получила 60.3 балла в тесте MTEB, опережая конкурентов с 300+ млн параметров. Модель 311M набрала 65.2 балла, что на 14.5 балла больше, чем у предшественника R1. На GPU NVIDIA H100 модель 97M обрабатывает более 2500 документов в секунду, а модель 311M — около 1800. Увеличенное окно в 32K токенов значительно улучшило результаты в тестах LongEmbed: прирост составил +31.3 для 97M и +34.0 для 311M.
Модели Granite Embedding R2 используют архитектуру ModernBERT с Flash Attention 2.0. Эффективность обеспечивают оптимизированные словари: 262 000 токенов для модели 311M и 180 000 для 97M. Модель 311M поддерживает Matryoshka embeddings, что позволяет сократить размерность векторов (например, до 128) при минимальной потере качества — сохраняется 97% производительности.
Практическое применение
Модели подходят для множества задач. С их помощью можно работать с данными на 200+ языках. Инструмент полезен для RAG и работы международных команд разработчиков. Модели обучены на данных IBM и соответствуют корпоративным стандартам, исключая данные с некоммерческими лицензиями. Matryoshka в модели 311M экономит ресурсы: расходы на хранение и поиск сокращаются в 3–6 раз.
Интеграция проста: они работают с библиотеками `sentence-transformers` и `LangChain`. Модели поставляются с весами ONNX и OpenVINO, совместимы с vLLM и llama.cpp/Ollama (GGUF). Часто достаточно просто сменить имя модели, чтобы добавить многоязычную поддержку без переписывания скриптов.
Как выбрать модель
Выбирайте granite-embedding-311m-multilingual-r2 для максимальной точности в сложных кросс-язычных задачах, если инфраструктура позволяет или требуется гибкость Matryoshka.
Рассмотрите granite-embedding-97m-multilingual-r2 для продакшена, если важны низкая задержка и высокая скорость. Рекомендуется как замена узкоспециализированным моделям. Она мгновенно добавляет поддержку 200+ языков и требует меньше ресурсов.
Ранее по теме
TML-Interaction-Small — ИИ с откликом 0.4 секунды
Больше новостей в нашем Телеграм. Подпишись!
Ссылка на источник тык.