Новости ИИ

NVIDIA Nemotron 3 Nano Omni ускорилась в 9 раз

Нейроредакция

29 апр. 2026 — 1 min read

NVIDIA Nemotron 3 Nano Omni — это новая модель, способная понимать текст, изображения, видео и звук. Она эффективно анализирует сложную информацию с большим контекстом, используя уникальную архитектуру Mamba-Transformer MoE.

Производительность на высоте

Nemotron 3 Nano Omni работает значительно быстрее: пропускная способность выросла в 9 раз, обработка в реальном времени — в 2.9 раза, для документов — в 7.4 раза, а для видео — в 9.2 раза.

Технические новинки

Nemotron 3 Nano Omni базируется на архитектуре Nemotron 3 Nano 30B-A3B. Модель интегрирована с видео-энкодером C-RADIOv4-H и аудио-энкодером Parakeet-TDT-0.6B-v2. Она обрабатывает изображения в их родном разрешении, что важно для документов и интерфейсов высокого качества.

Работа с видео и звуком

Модель использует сжатие Conv3D для видео, уменьшая количество визуальных токенов. Технология Efficient Video Sampling (EVS) отсеивает лишние кадры, ускоряя работу и снижая задержки.

Бизнес-применения

Nemotron 3 Nano Omni полезна для анализа контрактов, форм и документов объемом более 100 страниц, решая проблемы с разметкой и таблицами. Точность модели улучшилась в 2.19 раза.

Автономность и рабочие процессы

Модель управляет компьютером, понимая скриншоты и интерфейсы. Это позволяет ей самостоятельно искать информацию на сайтах, анализировать видеозаписи с экрана и совещаний, а также понимать связь между речью и видео. Компонент ASR выдает точные транскрипции, работая с 5 часами аудио.

Обучение и надежность

Nemotron 3 Nano Omni проходит многоэтапное обучение с использованием передовых методик. Модель обучалась на кластерах NVIDIA H100. Для надежности она тренировалась на запросах без ответа, чтобы научиться признавать недостаток информации.

Доступность

Готовые модели Nemotron 3 Nano Omni доступны на HuggingFace в форматах BF16 (высокая точность), FP8 (баланс) и NVFP4 (сильно сжатый для ограниченных ресурсов).

Больше новостей в нашем Телеграм. Подпишись!

Ссылка на источник тык.

Реконструкция легендарного гола Пеле 1959 года, созданная AI Google DeepMind с помощью моделей Veo 3 и Gemini Omni

Google DeepMind восстановил гол Пеле спустя 65 лет

Google DeepMind восстановил легендарный гол Пеле 1959 года. Видео этого момента отсутствовало 65 лет. В том эпизоде Пеле трижды перекинул мяч через защитников, обвел вратаря и забил головой. Теперь AI может не только генерировать вымышленные кадры, но и восстанавливать реальные исторические события по обрывкам данных. Технологии и процесс создания Команда

Интерфейс функции Talk to Spotify с иконкой микрофона и AI-инструментами для управления музыкой

Spotify запустил Talk to Spotify — AI-управление музыкой

Управление spotify через ai Spotify представил инструмент Talk to Spotify для подписчиков Premium. Теперь управлять музыкой можно не вручную, а с помощью простых голосовых или текстовых команд. Возможности и польза Функция доступна в разделах Home и Now Playing — достаточно нажать на иконку микрофона в поиске. С помощью AI можно: * создавать

Интерфейс голосового режима GPT-Live в ChatGPT с использованием модели GPT-5.5 для живого общения

GPT-Live превратил ChatGPT в живого собеседника

GPT-Live превращает голосовой ввод в ChatGPT в живой диалог. Теперь это не «рация», а полноценный звонок: вы можете перебивать AI и поправлять его на лету, не теряя нить беседы. Как это работает Здесь используется технология full-duplex, которая позволяет нейросети слушать и говорить одновременно. За сложную логику отвечает GPT-5.5 — она

Логотип TikTok и визуализация процесса поиска ИИ-клонов и защиты авторов от дипфейков

TikTok будет вычислять AI-клоны авторов

Как работает защита от ии-клонов TikTok представил инструмент для поиска незаконных AI-копий авторов. Чтобы им воспользоваться, нужно подтвердить личность через сервис Jumio с помощью селфи и скана паспорта. После проверки система автоматически найдет ваши цифровые образы в сети, что позволит быстро пожаловаться на фейковые аккаунты и посты. Где сервис доступен