NVIDIA NeMo RL Alcança 48% de Aceleração com Treino de Precisão FP8 de Ponta a Ponta

Jessie A Ellis 20 de abr. de 2026 23:41

A nova receita FP8 da NVIDIA para aprendizagem por reforço oferece treino 48% mais rápido, mantendo a precisão do BF16, reduzindo significativamente os custos de infraestrutura de IA.

NVIDIA NeMo RL Alcança 48% de Aceleração com Treino de Precisão FP8 de Ponta a Ponta

A NVIDIA lançou uma receita abrangente de precisão FP8 para aprendizagem por reforço que oferece até 48% de aumento no desempenho do treino, mantendo paridade de precisão com abordagens tradicionais BF16—um desenvolvimento com implicações significativas para os custos de infraestrutura de IA e economia de computação GPU.

A técnica, detalhada numa publicação técnica de Guyue Huang da NVIDIA, aborda um dos problemas mais espinhosos do treino RL: a discordância numérica entre as fases de geração e treino ao usar diferentes níveis de precisão em motores separados.

A Inovação Técnica

Os pipelines RL tradicionais usam vLLM para rollouts e Megatron Core para treino—cada um com kernels CUDA únicos que introduzem diferenças numéricas cumulativas. Estas discrepâncias amplificam-se em níveis de precisão mais baixos, limitando historicamente a adoção de FP8.

A solução da NVIDIA? Aplicar FP8 de forma consistente tanto na geração como no treino, em vez de misturar níveis de precisão. Os testes no Llama 3.1 8B Instruct mostraram uma precisão de validação de 0,613 com FP8 de ponta a ponta versus 0,616 para BF16—fechando efetivamente a lacuna. Entretanto, usar FP8 apenas para geração reduziu a precisão para 0,586.

A receita usa FP8 quantizado por blocos (formato E4M3) com granularidade 128x128 para pesos e 1x128 para ativações. As camadas lineares executam matemática FP8 a 2x do desempenho teórico máximo versus BF16, enquanto atenção, normalização e funções não lineares permanecem em BF16.

Ganhos de Desempenho no Mundo Real

Apenas para camadas lineares, a receita FP8 oferece melhorias consistentes de desempenho de 15-25%. A diferença entre a aceleração teórica de 2x e os ganhos reais provém das camadas de atenção que permanecem em BF16 mais a sobrecarga do kernel de quantização.

Estender o FP8 ao cache KV e operações de atenção aumenta a aceleração total para aproximadamente 48% em relação às linhas de base BF16. O problema: os pesos de política constantemente atualizados do RL requerem recalibração dinâmica das escalas de quantização após cada passo de treino. A abordagem da NVIDIA adiciona aproximadamente 2-3% de sobrecarga para esta recalibração—um custo menor para aceleração substancial.

Os testes no Qwen3-30B (um modelo mixture-of-experts) mostraram curvas de precisão correspondentes entre configurações FP8 e BF16, sugerindo que a técnica escala entre arquiteturas.

Porque Isto Importa para a Economia da IA

O treino RL para modelos capazes de raciocínio, como aqueles por trás de assistentes de IA avançados, requer computação massiva. Uma aceleração de 48% traduz-se diretamente em redução de horas-GPU e contas de eletricidade mais baixas para organizações que treinam estes sistemas.

A técnica de amostragem de importância que permite preservação de precisão pode revelar-se igualmente valiosa. Ao corrigir incompatibilidades de distribuição entre modelos de geração e treino numa base por token, permite redução agressiva de precisão sem sacrificar a qualidade do modelo.

A implementação completa está disponível na biblioteca NeMo RL de código aberto da NVIDIA, com receitas pré-configuradas para modelos Llama 3.1 8B e Moonlight 16B. Utilizadores avançados podem ajustar a abordagem—mantendo camadas de transformador específicas em BF16 ou mudando para fatores de escala potência de 2 para otimização adicional.

Para operadores de infraestrutura de IA que observam os custos de computação aumentarem juntamente com a complexidade do modelo, isto representa uma alavanca de eficiência significativa que não requer atualizações de hardware—apenas uso mais inteligente das capacidades H100 existentes.

Fonte da imagem: Shutterstock

nvidia
treino de ia
precisão fp8
machine learning
nemo rl

NVIDIA NeMo RL Alcança Aceleração de 48% com Treino de Precisão FP8 de Ponta a Ponta

NVIDIA NeMo RL Alcança 48% de Aceleração com Treino de Precisão FP8 de Ponta a Ponta

A Inovação Técnica

Ganhos de Desempenho no Mundo Real

Porque Isto Importa para a Economia da IA

Você também pode gostar

Morgan Stanley Bitcoin ETF Atraiu Mais de $100 Milhões na Primeira Semana

Principal assessor procura ajuda do GOP enquanto Trump enfrenta queda abrupta nas taxas de aprovação

Trader chi 1,13 triệu USD mua 3,83 tỷ ASTEROID trong 24 giờ qua

Notícias em alta

Senador Tillis pressiona Comissão Bancária do Senado a avançar projeto de lei sobre estrutura do mercado cripto em maio

ADA giữ 0,24 USD, khối lượng tăng 48%: phục hồi sắp tới?

Previsão de Preço do Token do Ecossistema Polygon – Preço POL Estimado para Cair para $ 0,072935 Até 25 de Abr de 2026

Yi Lihua dự báo Bitcoin hồi phục lên 85.000 USD, nhịp giảm là cơ hội cuối để mua

A escolha de Trump para salvar a economia da América tem um enorme obstáculo

Notícias ao vivo 24/7

Preços das criptomoedas