A nova receita FP8 da NVIDIA para aprendizagem por reforço oferece um treino 48% mais rápido, mantendo a precisão do BF16, reduzindo significativamente os custos de infraestrutura de IA. (ReadA nova receita FP8 da NVIDIA para aprendizagem por reforço oferece um treino 48% mais rápido, mantendo a precisão do BF16, reduzindo significativamente os custos de infraestrutura de IA. (Read

NVIDIA NeMo RL Alcança Aceleração de 48% com Treino de Precisão FP8 de Ponta a Ponta

2026/04/21 07:41
Leu 4 min
Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em [email protected]

NVIDIA NeMo RL Alcança 48% de Aceleração com Treino de Precisão FP8 de Ponta a Ponta

Jessie A Ellis 20 de abr. de 2026 23:41

A nova receita FP8 da NVIDIA para aprendizagem por reforço oferece treino 48% mais rápido, mantendo a precisão do BF16, reduzindo significativamente os custos de infraestrutura de IA.

NVIDIA NeMo RL Alcança 48% de Aceleração com Treino de Precisão FP8 de Ponta a Ponta

A NVIDIA lançou uma receita abrangente de precisão FP8 para aprendizagem por reforço que oferece até 48% de aumento no desempenho do treino, mantendo paridade de precisão com abordagens tradicionais BF16—um desenvolvimento com implicações significativas para os custos de infraestrutura de IA e economia de computação GPU.

A técnica, detalhada numa publicação técnica de Guyue Huang da NVIDIA, aborda um dos problemas mais espinhosos do treino RL: a discordância numérica entre as fases de geração e treino ao usar diferentes níveis de precisão em motores separados.

A Inovação Técnica

Os pipelines RL tradicionais usam vLLM para rollouts e Megatron Core para treino—cada um com kernels CUDA únicos que introduzem diferenças numéricas cumulativas. Estas discrepâncias amplificam-se em níveis de precisão mais baixos, limitando historicamente a adoção de FP8.

A solução da NVIDIA? Aplicar FP8 de forma consistente tanto na geração como no treino, em vez de misturar níveis de precisão. Os testes no Llama 3.1 8B Instruct mostraram uma precisão de validação de 0,613 com FP8 de ponta a ponta versus 0,616 para BF16—fechando efetivamente a lacuna. Entretanto, usar FP8 apenas para geração reduziu a precisão para 0,586.

A receita usa FP8 quantizado por blocos (formato E4M3) com granularidade 128x128 para pesos e 1x128 para ativações. As camadas lineares executam matemática FP8 a 2x do desempenho teórico máximo versus BF16, enquanto atenção, normalização e funções não lineares permanecem em BF16.

Ganhos de Desempenho no Mundo Real

Apenas para camadas lineares, a receita FP8 oferece melhorias consistentes de desempenho de 15-25%. A diferença entre a aceleração teórica de 2x e os ganhos reais provém das camadas de atenção que permanecem em BF16 mais a sobrecarga do kernel de quantização.

Estender o FP8 ao cache KV e operações de atenção aumenta a aceleração total para aproximadamente 48% em relação às linhas de base BF16. O problema: os pesos de política constantemente atualizados do RL requerem recalibração dinâmica das escalas de quantização após cada passo de treino. A abordagem da NVIDIA adiciona aproximadamente 2-3% de sobrecarga para esta recalibração—um custo menor para aceleração substancial.

Os testes no Qwen3-30B (um modelo mixture-of-experts) mostraram curvas de precisão correspondentes entre configurações FP8 e BF16, sugerindo que a técnica escala entre arquiteturas.

Porque Isto Importa para a Economia da IA

O treino RL para modelos capazes de raciocínio, como aqueles por trás de assistentes de IA avançados, requer computação massiva. Uma aceleração de 48% traduz-se diretamente em redução de horas-GPU e contas de eletricidade mais baixas para organizações que treinam estes sistemas.

A técnica de amostragem de importância que permite preservação de precisão pode revelar-se igualmente valiosa. Ao corrigir incompatibilidades de distribuição entre modelos de geração e treino numa base por token, permite redução agressiva de precisão sem sacrificar a qualidade do modelo.

A implementação completa está disponível na biblioteca NeMo RL de código aberto da NVIDIA, com receitas pré-configuradas para modelos Llama 3.1 8B e Moonlight 16B. Utilizadores avançados podem ajustar a abordagem—mantendo camadas de transformador específicas em BF16 ou mudando para fatores de escala potência de 2 para otimização adicional.

Para operadores de infraestrutura de IA que observam os custos de computação aumentarem juntamente com a complexidade do modelo, isto representa uma alavanca de eficiência significativa que não requer atualizações de hardware—apenas uso mais inteligente das capacidades H100 existentes.

Fonte da imagem: Shutterstock
  • nvidia
  • treino de ia
  • precisão fp8
  • machine learning
  • nemo rl
Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail [email protected] para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!