Разреженное обучение ускоряет обновление нейросетей в 50 раз

Схема разреженного обучения дельта-весов: трейнер, Hugging Face Bucket с Xet, vLLM rollout server. Формат safetensors, BF16ChangeDetector, DeltaWeightTransferEngine.

Синхронизация весов моделей в асинхронном обучении с подкреплением (RL) — непростая задача, особенно для моделей размером в терабайт (1T) и более. Традиционные методы требуют передачи полных снимков модели (около 1024 GiB для 1T параметров), что создает узкое место. Простой GPU затягивается, пока модель ожидает загрузки новых весов.

Разреженное обучение дельта-значений — решение проблемы

Эффективным решением является разреженное обучение дельта-значений. Вместо полных снимков модели передаются только "дельта-значения весов" — изменения с момента последнего обновления. Это значительно сокращает объем передаваемых данных.

Для модели с 7B параметров дельта-значения уменьшают объем данных примерно в 130 раз, а для 1T — с 1024 GiB до ~20.3 GiB (50-кратное сокращение). Время простоя GPU при выводе сокращается до 1 секунды, поскольку передача происходит в фоновом режиме, минимизируя остановки синхронизации.

Анализ показывает, что около 99% весов в формате bfloat16 (bf16) остаются неизменными между шагами обучения. Высокая разреженность обусловлена "порогом видимости bf16": обновления, меньше половины интервала между числами bf16 (\(|\Delta w| < |w|/256\)), поглощаются округлением. Байтовое представление веса не меняется.

Архитектура для разреженного обучения

Система включает трейнер, Hugging Face Bucket и vLLM rollout server. Трейнер генерирует дельта-значения весов. HF Bucket с Xet для дедупликации хранит полные снимки (`anchors/`) и разреженные патчи (`deltas/`). vLLM Rollout Server восстанавливает веса модели из бакета. Важно: трейнер и сервер вывода не общаются напрямую, все взаимодействие идет через Bucket. Это позволяет распределять нагрузку по разным регионам и облачным провайдерам.

Технологии и протоколы

Формат передачи данных — safetensors. Поддерживается отображение памяти без копирования (`mmap`) и метаданные для разделения разреженных и плотных файлов. `BF16ChangeDetector` на стороне трейнера определяет измененные веса с помощью хуков оптимизатора. На стороне вывода `DeltaWeightTransferEngine` (расширение vLLM) применяет дельта-значения. Эта система подходит для асинхронного RL без дорогих сетей.

Практическая польза для бизнеса

Система позволяет использовать обычное оборудование для асинхронного RL, не требуя специализированных сетей. Архитектура масштабируется, обеспечивая одновременную загрузку весов множеством реплик. Формат safetensors упрощает отладку и позволяет работать с моделями сверхбольшого масштаба.

Будущее развитие

vLLM готовит встроенную поддержку передачи разреженных весов (`receive_sparse_weights()`) для их прямого обновления на GPU. Планируется переход от фиксированных интервалов якорей к адаптивным политикам. Нужно масштабировать поддержку многоузловых трейнеров FSDP2.

Причина разреженности весов bf16

Ограниченная мантисса bf16 создает "порог видимости" для обновлений весов. Из-за низкой скорости обучения в RL, изменения меньше половины интервала bf16 поглощаются ошибками округления. Байтовое представление веса не меняется.

Для моделей с миллиардами параметров это дает бесплатную разреженность более 99%, что подтверждается эмпирически.

Использование hugging face buckets

Решение использует Hugging Face Buckets на базе Xet для дедупликации. Даже полные снимки передают только измененные блоки. Сочетание разреженного кодирования и Xet гарантирует оплату только за перемещенные данные.

Общая архитектура

Система состоит из трейнера, Hugging Face Bucket и vLLM rollout server. Трейнер работает на любом оборудовании, генерируя разреженные дельта-значения. Hugging Face Bucket хранит полные снимки (`anchors/`) и разреженные патчи (`deltas/`). Это единственный узел синхронизации. vLLM rollout server, развернутый независимо, получает данные из бакета, применяет дельта-значения и обслуживает вывод модели. Трейнер и сервер вывода не общаются напрямую. Это позволяет организовать географически распределенные развертывания.

Протокол и структура данных

Протокол основан на формате safetensors, структуре бакета, расширении vLLM и детекторе изменений трейнера. Якоря — периодические полные контрольные точки с метаданными `sparse=False`. Дельта-значения — только измененные веса в виде файлов индексов (`.indices`) и значений (`.values`) с метаданными `sparse=True`. Новые реплики могут начать с последнего якоря, затем применить последующие дельта-значения.

Обнаружение изменений на стороне трейнера

`BF16ChangeDetector` определяет измененные веса, создавая снимок перед шагом оптимизатора и сравнивая с текущими весами после шага. Этот метод надежнее предсказания из статистики Adam. Процесс синхронизации включает: снимок весов, шаг оптимизатора, генерацию маски, загрузку дельта-файла.

Применение дельта-значений на стороне vllm

vLLM использует `DeltaWeightTransferEngine`, которое скачивает дельта-файл. Затем восстанавливает полные веса, применяя дельта-значения к снимку модели на CPU. Эти тензоры загружаются в vLLM. vLLM активно разрабатывает нативную поддержку передачи разреженных весов для их прямого обновления на GPU.

Развертывание на hugging face spaces

Система легко развертывается на Hugging Face Spaces. Трейнер может работать на одном GPU, а парки вывода — в Spaces, устраняя необходимость прямой сетевой связи. Настройка такого распределенного обучения занимает несколько команд. Полезная нагрузка дельта-файлов остается небольшой (20-35 МБ для модели 0.6B), время простоя вывода — около одной секунды.

Ключевые возможности

Система позволяет выполнять асинхронное RL без выделенного кластера и многорепликационный вывод без значительных затрат. Формат safetensors упрощает отладку. Для модели 1 ТБ дельта-значения могут составлять около 20.3 GiB — управляемый размер для объектного хранилища.

Области для дальнейшего развития

Текущая реализация требует двух снимков модели на CPU. Планируется убрать снимок на сервере вывода после добавления vLLM нативной поддержки разреженных весов. Переход к адаптивной политике интервала якорей может снизить затраты. Требуется масштабирование поддержки многоузловых трейнеров FSDP2. Исследуется возможность точного предсказания масок изменений из статистики Adam.

Ранее по теме
Фейковый репозиторий Hugging Face украл данные пользователей

Больше новостей в нашем Телеграм. Подпишись!

Ссылка на источник тык.

Read more

Разработчик работает за компьютером, на экране код и символы ИИ. Графики показывают снижение продуктивности и рост техдолга из-за ИИ.

ИИ-помощники снизили производительность разработчиков и увеличили долги

Зависимость от ИИ-помощников стала нормой: многие разработчики уже не готовы писать код без поддержки нейросетей. Это меняет стандартные рабочие процессы в IT. Исследования 2025 года показали: ожидания от ИИ часто разбиваются о реальность. Вместо обещанного ускорения задачи стали занимать больше времени из-за отладки, настройки и ожидания ответов нейросетей. К февралю

Логотип OpenAI и схема Frontier Governance Framework (FGF) для безопасной разработки ИИ.

OpenAI представила готовый стандарт безопасности ИИ-разработок

OpenAI представляет Frontier Governance Framework (FGF) — готовую инструкцию по безопасной разработке ИИ. Этот фреймворк помогает избежать серьезных рисков при масштабировании. FGF соответствует требованиям регуляторов, таким как EU General-Purpose AI Code of Practice и California’s Transparency in Frontier AI Act (TFAIA). Используйте этот документ как шаблон для своих систем: он

ИИ-агент Devin от Cognition, пишущий код. Инвестиции $1 млрд, оценка $26 млрд. Автоматизация разработки ПО.

Cognition привлек $1 млрд при оценке $26 млрд

Стартап Cognition привлек $1 миллиард инвестиций серии D, увеличив свою оценку до $26 миллиардов. Компания разрабатывает ИИ-агентов для написания кода, и инвесторы делают на них большую ставку. Как работает cognition ИИ-агент Devin берет на себя 89% задач по написанию кода, подтверждая свою эффективность. Остальную работу выполняют другие агенты на платформе

Робот-пылесос с камерой, работающий в помещении, обучается на видео с платформы Shift App от MicroAGI.

MicroAGI платит операторам $20 в час за обучение роботов

Компания MicroAGI ускоряет разработку искусственного интеллекта в робототехнике. Они собирают видео в высоком качестве — это данные для обучения роботов. Бизнес-модель основана на платформе Shift app, где люди записывают свои действия за вознаграждение. Компания работает в 50 странах. Собраны десятки тысяч участников. В Нью-Йорке MicroAGI проводит акцию: предлагают бесплатную уборку. Уборщики

Хочешь больше информации про автоматизацию и AI?

В ТГ-канале «Дети нейросети» рассказываю про автоматизацию бизнеса.

Автоматизироваться
Дети Нейросети © 2026