NVIDIA Nemotron 3 Nano Omni ускорилась в 9 раз
NVIDIA Nemotron 3 Nano Omni — это новая модель, способная понимать текст, изображения, видео и звук. Она эффективно анализирует сложную информацию с большим контекстом, используя уникальную архитектуру Mamba-Transformer MoE.
Производительность на высоте
Nemotron 3 Nano Omni работает значительно быстрее: пропускная способность выросла в 9 раз, обработка в реальном времени — в 2.9 раза, для документов — в 7.4 раза, а для видео — в 9.2 раза.
Технические новинки
Nemotron 3 Nano Omni базируется на архитектуре Nemotron 3 Nano 30B-A3B. Модель интегрирована с видео-энкодером C-RADIOv4-H и аудио-энкодером Parakeet-TDT-0.6B-v2. Она обрабатывает изображения в их родном разрешении, что важно для документов и интерфейсов высокого качества.
Работа с видео и звуком
Модель использует сжатие Conv3D для видео, уменьшая количество визуальных токенов. Технология Efficient Video Sampling (EVS) отсеивает лишние кадры, ускоряя работу и снижая задержки.
Бизнес-применения
Nemotron 3 Nano Omni полезна для анализа контрактов, форм и документов объемом более 100 страниц, решая проблемы с разметкой и таблицами. Точность модели улучшилась в 2.19 раза.
Автономность и рабочие процессы
Модель управляет компьютером, понимая скриншоты и интерфейсы. Это позволяет ей самостоятельно искать информацию на сайтах, анализировать видеозаписи с экрана и совещаний, а также понимать связь между речью и видео. Компонент ASR выдает точные транскрипции, работая с 5 часами аудио.
Обучение и надежность
Nemotron 3 Nano Omni проходит многоэтапное обучение с использованием передовых методик. Модель обучалась на кластерах NVIDIA H100. Для надежности она тренировалась на запросах без ответа, чтобы научиться признавать недостаток информации.
Доступность
Готовые модели Nemotron 3 Nano Omni доступны на HuggingFace в форматах BF16 (высокая точность), FP8 (баланс) и NVFP4 (сильно сжатый для ограниченных ресурсов).
Больше новостей в нашем Телеграм. Подпишись!
Ссылка на источник тык.