Granite 4.1: Новые ИИ-модели с огромным контекстом
Семейство моделей Granite 4.1 имеет плотную архитектуру и ориентировано на генерацию ответов. Они выпущены под лицензией Apache 2.0 и доступны в вариантах с 3, 8 и 30 миллиардами параметров. В моделях используются передовые технологии: Grouped Query Attention (GQA), RoPE, SwiGLU и RMSNorm. Благодаря многоэтапному обучению, Granite 4.1 способна обрабатывать контекст до 512 тысяч токенов.
Производительность и оптимизация
Granite 4.1 на 8 миллиардах параметров демонстрирует эффективность, сравнимую или превосходящую предыдущую модель Granite 4.0-H-Small с 32 миллиардами параметров и архитектурой Mixture-of-Experts (MoE). Granite 4.1 идеально подходит для бизнеса: она обеспечивает предсказуемую скорость и стабильный расход токенов, что избавляет модель от излишних рассуждений по "цепочке мыслей". Модели поддерживают 12 языков.
Процесс обучения
Обучение Granite 4.1 заняло значительное время на примерно 15 триллионах токенов. Процесс состоял из пяти этапов с акцентом на качество данных: начальные общие данные из интернета сменились специализированными, тщательно отобранными.
Состав данных менялся поэтапно: первые два этапа заложили основу, с 5-кратным увеличением данных по математике и кода на втором этапе. На этапах 3 и 4 применили метод "отжига" (annealing) с синтетическими данными высокого качества, длинными цепочками рассуждений и инструкциями для языков и кода. Этап 5 был посвящен увеличению длины контекста до 512 тысяч токенов.
Доводка модели
После основного обучения Granite 4.1 прошла доводку на 4.1 миллиона образцов данных. Качество ответов проверяли с помощью подхода "LLM-as-Judge": оценивали точность, полноту, краткость, естественность, калибровку и строгое следование инструкциям. Это помогло убрать галлюцинации и предотвратить нежелательное поведение модели.
Далее модель улучшили с помощью обучения с подкреплением (GRPO с DAPO loss), включавшего обучение на разных задачах для предотвращения забывания, RLHF для диалогов (что дало рост 18.9 балла на Alpaca-Eval), настройку самоидентификации и этап для математики. Это обеспечило прирост в 3,8 балла на GSM8K и на 23,48 балла на DeepMind-Math.
Применение и развертывание
Вариант FP8 моделей Granite 4.1, оптимизированный для vLLM, снижает размер и потребление памяти вдвое благодаря квантизации, почти не влияя на архитектуру. Модели отлично подходят для автоматизации бизнеса и вызовов инструментов, что подтверждено тестами BFCL V3. Встроенная проверка ответов полезна для RAG, что полезно для поиска по корпоративным документам. Модель на 8 миллиардов параметров экономична: она выдает производительность как у больших моделей, но дешевле и проще в инфраструктуре. Обучение проходило на кластере NVIDIA GB200 NVL72 на CoreWeave.
Ранее по теме
Oracle и AI: трансформация в "необлако" и партнерство с OpenAI
Больше новостей в нашем Телеграм. Подпишись!
Ссылка на источник тык.