Новый рецепт FP8 от NVIDIA для обучения с подкреплением обеспечивает на 48% более быструю тренировку при сохранении точности BF16, значительно снижая затраты на AI-инфраструктуру. (ReadНовый рецепт FP8 от NVIDIA для обучения с подкреплением обеспечивает на 48% более быструю тренировку при сохранении точности BF16, значительно снижая затраты на AI-инфраструктуру. (Read

NVIDIA NeMo RL достигает ускорения на 48% благодаря сквозному обучению с точностью FP8

2026/04/21 07:41
3м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу [email protected]

NVIDIA NeMo RL достигает ускорения на 48% благодаря сквозному обучению с точностью FP8

Jessie A Ellis 23:41, 20 апреля 2026

Новый рецепт FP8 от NVIDIA для обучения с подкреплением обеспечивает обучение на 48% быстрее при сохранении точности BF16, значительно снижая затраты на инфраструктуру ИИ.

NVIDIA NeMo RL достигает ускорения на 48% благодаря сквозному обучению с точностью FP8

NVIDIA выпустила комплексный рецепт точности FP8 для обучения с подкреплением, который обеспечивает до 48% более высокую пропускную способность обучения при сохранении точности наравне с традиционными подходами BF16 — разработка со значительными последствиями для затрат на инфраструктуру ИИ и экономики вычислений GPU.

Техника, подробно описанная в техническом блоге Гуюэ Хуан из NVIDIA, решает одну из самых сложных проблем обучения RL: числовое несоответствие между фазами генерации и обучения при использовании различных уровней точности в отдельных движках.

Технический прорыв

Традиционные конвейеры RL используют vLLM для развертываний и Megatron Core для обучения — каждый с уникальными ядрами CUDA, которые вносят кумулятивные числовые различия. Эти расхождения усиливаются при более низких уровнях точности, исторически ограничивая внедрение FP8.

Решение NVIDIA? Применять FP8 последовательно как для генерации, так и для обучения, вместо смешивания уровней точности. Тестирование на Llama 3.1 8B Instruct показало точность валидации 0,613 со сквозным FP8 против 0,616 для BF16 — фактически устраняя разрыв. Между тем, использование FP8 только для генерации снизило точность до 0,586.

Рецепт использует блочно-квантованный FP8 (формат E4M3) с детализацией 128x128 для весов и 1x128 для активаций. Линейные слои выполняют математику FP8 с теоретической пиковой пропускной способностью в 2 раза по сравнению с BF16, в то время как внимание, нормализация и нелинейные функции остаются в BF16.

Реальные прирост производительности

Только для линейных слоев рецепт FP8 обеспечивает стабильное улучшение пропускной способности на 15-25%. Разрыв между теоретическим ускорением в 2 раза и фактическими приростами возникает из-за того, что слои внимания остаются в BF16, плюс накладные расходы ядра квантования.

Расширение FP8 на кэш KV и операции внимания увеличивает общее ускорение до приблизительно 48% по сравнению с базовыми показателями BF16. Загвоздка: постоянно обновляющиеся веса политики RL требуют динамической рекалибровки шкал квантования после каждого шага обучения. Подход NVIDIA добавляет примерно 2-3% накладных расходов для этой рекалибровки — незначительная цена за существенное ускорение.

Тестирование на Qwen3-30B (модель смеси экспертов) показало совпадающие кривые точности между конфигурациями FP8 и BF16, что предполагает масштабируемость техники в разных архитектурах.

Почему это важно для экономики ИИ

Обучение RL для моделей с возможностями рассуждения, таких как те, что стоят за продвинутыми ассистентами ИИ, требует массивных вычислений. Ускорение на 48% напрямую преобразуется в сокращение GPU-часов и более низкие счета за электричество для организаций, обучающих эти системы.

Техника важностной выборки, которая обеспечивает сохранение точности, может оказаться не менее ценной. Исправляя несоответствия распределения между моделями генерации и обучения на основе отдельных токенов, она позволяет агрессивное снижение точности без ущерба для качества модели.

Полная реализация доступна в открытой библиотеке NeMo RL от NVIDIA с предварительно настроенными рецептами для моделей Llama 3.1 8B и Moonlight 16B. Продвинутые пользователи могут тонко настроить подход — сохраняя определенные слои трансформера в BF16 или переключаясь на коэффициенты масштабирования степени 2 для дополнительной оптимизации.

Для операторов инфраструктуры ИИ, наблюдающих рост затрат на вычисления наряду со сложностью модели, это представляет значимый рычаг эффективности, который не требует обновления оборудования — только более умное использование существующих возможностей H100.

Источник изображения: Shutterstock
  • nvidia
  • обучение ИИ
  • точность fp8
  • машинное обучение
  • nemo rl
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Кандидат Трампа на спасение американской экономики столкнулся с огромным препятствием

Кандидат Трампа на спасение американской экономики столкнулся с огромным препятствием

Выбор президента Дональда Трампа на пост главы ФРС должен развернуть американскую экономику — но его неожиданной проблемой является сам Трамп. "Балансирование на канате
Поделиться
Alternet2026/04/21 10:23
Ripple ставит цель на 2028 год сделать XRP Ledger устойчивым к квантовым вычислениям

Ripple ставит цель на 2028 год сделать XRP Ledger устойчивым к квантовым вычислениям

Статья Ripple устанавливает целью 2028 год для подготовки XRP Ledger к квантовым технологиям появилась на BitcoinEthereumNews.com. Ripple заявил, что XRP Ledger будет следовать четырехфазной дорожной карте
Поделиться
BitcoinEthereumNews2026/04/21 08:49
Morgan Stanley ETF на Биткоин привлёк свыше $100 млн за первую неделю

Morgan Stanley ETF на Биткоин привлёк свыше $100 млн за первую неделю

Ключевые моменты Спотовый биржевой фонд (ETF) Bitcoin от Morgan Stanley MSBT зафиксировал приток средств более $100 миллионов только за первую неделю, что является признаком массового институционального
Поделиться
Themarketperiodical2026/04/21 10:29

Генезис USD1: 0% + 12% APR

Генезис USD1: 0% + 12% APRГенезис USD1: 0% + 12% APR

Новые пользователи: Стейкайте и получите до 600% APR