NVIDIAs neues FP8-Rezept für Reinforcement Learning liefert 48% schnelleres Training bei gleichbleibender BF16-Genauigkeit und senkt die Kosten für KI-Infrastruktur erheblich. (ReadNVIDIAs neues FP8-Rezept für Reinforcement Learning liefert 48% schnelleres Training bei gleichbleibender BF16-Genauigkeit und senkt die Kosten für KI-Infrastruktur erheblich. (Read

NVIDIA NeMo RL erzielt 48 % Geschwindigkeitssteigerung mit End-to-End-FP8-Precision-Training

2026/04/21 07:41
3 Min. Lesezeit
Bei Feedback oder Anliegen zu diesem Inhalt kontaktieren Sie uns bitte unter [email protected]

NVIDIA NeMo RL erreicht 48% Geschwindigkeitssteigerung mit End-to-End FP8-Präzisionstraining

Jessie A Ellis 20.04.2026 23:41

NVIDIAs neues FP8-Rezept für Reinforcement Learning liefert 48% schnelleres Training bei gleichbleibender BF16-Genauigkeit und senkt die KI-Infrastrukturkosten erheblich.

NVIDIA NeMo RL erreicht 48% Geschwindigkeitssteigerung mit End-to-End FP8-Präzisionstraining

NVIDIA hat ein umfassendes FP8-Präzisionsrezept für Reinforcement Learning veröffentlicht, das bis zu 48% schnelleren Trainingsdurchsatz liefert und gleichzeitig die Genauigkeitsparität mit traditionellen BF16-Ansätzen beibehält – eine Entwicklung mit erheblichen Auswirkungen auf KI-Infrastrukturkosten und GPU-Rechenökonomie.

Die Technik, die in einem technischen Blogbeitrag von NVIDIAs Guyue Huang detailliert beschrieben wird, adressiert eines der schwierigsten Probleme beim RL-Training: die numerische Diskrepanz zwischen Generierungs- und Trainingsphasen bei Verwendung unterschiedlicher Präzisionsstufen über separate Engines hinweg.

Der technische Durchbruch

Traditionelle RL-Pipelines verwenden vLLM für Rollouts und Megatron Core für das Training – jede mit einzigartigen CUDA-Kerneln, die kumulative numerische Unterschiede einführen. Diese Diskrepanzen verstärken sich bei niedrigeren Präzisionsstufen und haben historisch die FP8-Einführung eingeschränkt.

NVIDIAs Lösung? FP8 konsistent sowohl bei der Generierung als auch beim Training anwenden, anstatt Präzisionsstufen zu mischen. Tests mit Llama 3.1 8B Instruct zeigten eine Validierungsgenauigkeit von 0,613 mit End-to-End FP8 gegenüber 0,616 für BF16 – was die Lücke effektiv schließt. Die Verwendung von FP8 nur für die Generierung senkte die Genauigkeit hingegen auf 0,586.

Das Rezept verwendet blockweise quantisiertes FP8 (E4M3-Format) mit 128x128-Granularität für Gewichte und 1x128 für Aktivierungen. Lineare Schichten führen FP8-Mathematik mit 2x theoretischem Spitzendurchsatz gegenüber BF16 aus, während Attention, Normalisierung und nichtlineare Funktionen in BF16 bleiben.

Leistungsgewinne in der Praxis

Für lineare Schichten allein liefert das FP8-Rezept konsistente 15-25% Durchsatzverbesserungen. Die Lücke zwischen theoretischer 2x-Beschleunigung und tatsächlichen Gewinnen ergibt sich aus Attention-Schichten, die in BF16 verbleiben, plus Quantisierungs-Kernel-Overhead.

Die Erweiterung von FP8 auf KV-Cache und Attention-Operationen erhöht die Gesamtbeschleunigung auf etwa 48% gegenüber BF16-Baselines. Der Haken: Die ständig aktualisierten Policy-Gewichte von RL erfordern eine dynamische Rekalibrierung der Quantisierungsskalen nach jedem Trainingsschritt. NVIDIAs Ansatz fügt etwa 2-3% Overhead für diese Rekalibrierung hinzu – ein geringer Preis für eine erhebliche Beschleunigung.

Tests mit Qwen3-30B (einem Mixture-of-Experts-Modell) zeigten übereinstimmende Genauigkeitskurven zwischen FP8- und BF16-Konfigurationen, was darauf hindeutet, dass die Technik über Architekturen hinweg skaliert.

Warum dies für die KI-Ökonomie wichtig ist

RL-Training für Reasoning-fähige Modelle wie jene hinter fortschrittlichen KI-Assistenten erfordert massive Rechenleistung. Eine 48%ige Beschleunigung übersetzt sich direkt in reduzierte GPU-Stunden und niedrigere Stromrechnungen für Organisationen, die diese Systeme trainieren.

Die Importance-Sampling-Technik, die die Genauigkeitserhaltung ermöglicht, könnte sich als ebenso wertvoll erweisen. Durch die Korrektur von Verteilungsdiskrepanzen zwischen Generierungs- und Trainingsmodellen auf Token-Basis ermöglicht sie eine aggressive Präzisionsreduktion ohne Beeinträchtigung der Modellqualität.

Die vollständige Implementierung ist in NVIDIAs Open-Source-NeMo-RL-Bibliothek verfügbar, mit vorkonfigurierten Rezepten für Llama 3.1 8B und Moonlight 16B Modelle. Fortgeschrittene Benutzer können den Ansatz feinabstimmen – indem sie bestimmte Transformer-Schichten in BF16 behalten oder zu Potenz-von-2-Skalierungsfaktoren für zusätzliche Optimierung wechseln.

Für KI-Infrastrukturbetreiber, die beobachten, wie Rechenkosten parallel zur Modellkomplexität steigen, stellt dies einen bedeutenden Effizienzhebel dar, der keine Hardware-Upgrades erfordert – nur eine intelligentere Nutzung vorhandener H100-Fähigkeiten.

Bildquelle: Shutterstock
  • nvidia
  • KI-Training
  • FP8-Präzision
  • Machine Learning
  • nemo rl
Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an [email protected] um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!