NVIDIA NeMo RL erreicht 48% Geschwindigkeitssteigerung mit End-to-End FP8-Präzisionstraining

Jessie A Ellis 20.04.2026 23:41

NVIDIAs neues FP8-Rezept für Reinforcement Learning liefert 48% schnelleres Training bei gleichbleibender BF16-Genauigkeit und senkt die KI-Infrastrukturkosten erheblich.

NVIDIA NeMo RL erreicht 48% Geschwindigkeitssteigerung mit End-to-End FP8-Präzisionstraining

NVIDIA hat ein umfassendes FP8-Präzisionsrezept für Reinforcement Learning veröffentlicht, das bis zu 48% schnelleren Trainingsdurchsatz liefert und gleichzeitig die Genauigkeitsparität mit traditionellen BF16-Ansätzen beibehält – eine Entwicklung mit erheblichen Auswirkungen auf KI-Infrastrukturkosten und GPU-Rechenökonomie.

Die Technik, die in einem technischen Blogbeitrag von NVIDIAs Guyue Huang detailliert beschrieben wird, adressiert eines der schwierigsten Probleme beim RL-Training: die numerische Diskrepanz zwischen Generierungs- und Trainingsphasen bei Verwendung unterschiedlicher Präzisionsstufen über separate Engines hinweg.

Der technische Durchbruch

Traditionelle RL-Pipelines verwenden vLLM für Rollouts und Megatron Core für das Training – jede mit einzigartigen CUDA-Kerneln, die kumulative numerische Unterschiede einführen. Diese Diskrepanzen verstärken sich bei niedrigeren Präzisionsstufen und haben historisch die FP8-Einführung eingeschränkt.

NVIDIAs Lösung? FP8 konsistent sowohl bei der Generierung als auch beim Training anwenden, anstatt Präzisionsstufen zu mischen. Tests mit Llama 3.1 8B Instruct zeigten eine Validierungsgenauigkeit von 0,613 mit End-to-End FP8 gegenüber 0,616 für BF16 – was die Lücke effektiv schließt. Die Verwendung von FP8 nur für die Generierung senkte die Genauigkeit hingegen auf 0,586.

Das Rezept verwendet blockweise quantisiertes FP8 (E4M3-Format) mit 128x128-Granularität für Gewichte und 1x128 für Aktivierungen. Lineare Schichten führen FP8-Mathematik mit 2x theoretischem Spitzendurchsatz gegenüber BF16 aus, während Attention, Normalisierung und nichtlineare Funktionen in BF16 bleiben.

Leistungsgewinne in der Praxis

Für lineare Schichten allein liefert das FP8-Rezept konsistente 15-25% Durchsatzverbesserungen. Die Lücke zwischen theoretischer 2x-Beschleunigung und tatsächlichen Gewinnen ergibt sich aus Attention-Schichten, die in BF16 verbleiben, plus Quantisierungs-Kernel-Overhead.

Die Erweiterung von FP8 auf KV-Cache und Attention-Operationen erhöht die Gesamtbeschleunigung auf etwa 48% gegenüber BF16-Baselines. Der Haken: Die ständig aktualisierten Policy-Gewichte von RL erfordern eine dynamische Rekalibrierung der Quantisierungsskalen nach jedem Trainingsschritt. NVIDIAs Ansatz fügt etwa 2-3% Overhead für diese Rekalibrierung hinzu – ein geringer Preis für eine erhebliche Beschleunigung.

Tests mit Qwen3-30B (einem Mixture-of-Experts-Modell) zeigten übereinstimmende Genauigkeitskurven zwischen FP8- und BF16-Konfigurationen, was darauf hindeutet, dass die Technik über Architekturen hinweg skaliert.

Warum dies für die KI-Ökonomie wichtig ist

RL-Training für Reasoning-fähige Modelle wie jene hinter fortschrittlichen KI-Assistenten erfordert massive Rechenleistung. Eine 48%ige Beschleunigung übersetzt sich direkt in reduzierte GPU-Stunden und niedrigere Stromrechnungen für Organisationen, die diese Systeme trainieren.

Die Importance-Sampling-Technik, die die Genauigkeitserhaltung ermöglicht, könnte sich als ebenso wertvoll erweisen. Durch die Korrektur von Verteilungsdiskrepanzen zwischen Generierungs- und Trainingsmodellen auf Token-Basis ermöglicht sie eine aggressive Präzisionsreduktion ohne Beeinträchtigung der Modellqualität.

Die vollständige Implementierung ist in NVIDIAs Open-Source-NeMo-RL-Bibliothek verfügbar, mit vorkonfigurierten Rezepten für Llama 3.1 8B und Moonlight 16B Modelle. Fortgeschrittene Benutzer können den Ansatz feinabstimmen – indem sie bestimmte Transformer-Schichten in BF16 behalten oder zu Potenz-von-2-Skalierungsfaktoren für zusätzliche Optimierung wechseln.

Für KI-Infrastrukturbetreiber, die beobachten, wie Rechenkosten parallel zur Modellkomplexität steigen, stellt dies einen bedeutenden Effizienzhebel dar, der keine Hardware-Upgrades erfordert – nur eine intelligentere Nutzung vorhandener H100-Fähigkeiten.

Bildquelle: Shutterstock

nvidia
KI-Training
FP8-Präzision
Machine Learning
nemo rl

NVIDIA NeMo RL erzielt 48 % Geschwindigkeitssteigerung mit End-to-End-FP8-Precision-Training

NVIDIA NeMo RL erreicht 48% Geschwindigkeitssteigerung mit End-to-End FP8-Präzisionstraining

Der technische Durchbruch

Leistungsgewinne in der Praxis

Warum dies für die KI-Ökonomie wichtig ist

Das könnte Ihnen auch gefallen

Ripple setzt 2028 als Ziel, um XRP Ledger quantenbereit zu machen

Revolut verschiebt Börsengang auf 2028 nach Erhalt der britischen Banklizenz

Morgan Stanley Bitcoin-ETF zog in der ersten Woche über 100 Millionen US-Dollar an

Trendnachrichten

Senator Tillis drängt den Bankenausschuss des Senats, das Gesetz zur Krypto-Marktstruktur im Mai voranzutreiben

Wir haben Trumps Messias-Komplex normalisiert — und was das für Amerika bedeutet

Polygon Ecosystem Token Preisprognose – POL-Preis wird voraussichtlich bis zum 25.04.2026 auf $ 0,072935 fallen

Bitmine kauft 101.000 ETH und nähert sich dem Ziel von 5 % des Angebots

Trumps Kandidat zur Rettung der amerikanischen Wirtschaft hat ein großes Hindernis

24/7 Live-Nachrichten

Kryptopreise