NVIDIA CCCL 3.1 introduit trois niveaux de déterminisme pour les réductions parallèles, permettant aux développeurs d'arbitrer entre performance et reproductibilité dans les calculs GPU. (ReadNVIDIA CCCL 3.1 introduit trois niveaux de déterminisme pour les réductions parallèles, permettant aux développeurs d'arbitrer entre performance et reproductibilité dans les calculs GPU. (Read

NVIDIA CCCL 3.1 ajoute des contrôles de déterminisme en virgule flottante pour le calcul GPU

2026/03/06 01:46
Temps de lecture : 4 min
Pour tout commentaire ou toute question concernant ce contenu, veuillez nous contacter à l'adresse suivante : [email protected]

NVIDIA CCCL 3.1 ajoute des contrôles de déterminisme en virgule flottante pour le calcul GPU

Caroline Bishop 05 mars 2026 17h46

NVIDIA CCCL 3.1 introduit trois niveaux de déterminisme pour les réductions parallèles, permettant aux développeurs d'échanger les performances contre la reproductibilité dans les calculs GPU.

NVIDIA CCCL 3.1 ajoute des contrôles de déterminisme en virgule flottante pour le calcul GPU

NVIDIA a déployé des contrôles de déterminisme dans CUDA Core Compute Libraries (CCCL) 3.1, abordant un problème persistant dans le calcul GPU parallèle : obtenir des résultats identiques à partir d'opérations en virgule flottante sur plusieurs exécutions et différents matériels.

La mise à niveau introduit trois niveaux de déterminisme configurables via la nouvelle API monophasée de CUB, donnant aux développeurs un contrôle explicite sur le compromis reproductibilité-performance qui afflige les applications GPU depuis des années.

Pourquoi le déterminisme en virgule flottante est important

Voici le problème : l'addition en virgule flottante n'est pas strictement associative. En raison de l'arrondi à précision finie, (a + b) + c n'est pas toujours égal à a + (b + c). Lorsque les threads parallèles combinent des valeurs dans des ordres imprévisibles, vous obtenez des résultats légèrement différents à chaque exécution. Pour de nombreuses applications—modélisation financière, simulations scientifiques, calculs blockchain, entraînement d'apprentissage automatique—cette incohérence crée de vrais problèmes.

La nouvelle API permet aux développeurs de spécifier exactement le niveau de reproductibilité dont ils ont besoin à travers trois modes :

Déterminisme non garanti privilégie la vitesse brute. Il utilise des opérations atomiques qui s'exécutent dans l'ordre où les threads se produisent, complétant les réductions en un seul lancement de noyau. Les résultats peuvent varier légèrement entre les exécutions, mais pour les applications où des réponses approximatives suffisent, les gains de performance sont substantiels—particulièrement sur les tableaux d'entrée plus petits où la surcharge de lancement du noyau domine.

Déterminisme d'exécution à exécution (par défaut) garantit des sorties identiques lors de l'utilisation de la même entrée, configuration de noyau et GPU. NVIDIA y parvient en structurant les réductions comme des arbres hiérarchiques fixes plutôt qu'en s'appuyant sur des atomiques. Les éléments se combinent d'abord dans les threads, puis à travers les warps via des instructions de shuffle, puis à travers les blocs en utilisant la mémoire partagée, avec un deuxième noyau agrégeant les résultats finaux.

Déterminisme GPU à GPU fournit la reproductibilité la plus stricte, garantissant des résultats identiques sur différents GPU NVIDIA. L'implémentation utilise un accumulateur en virgule flottante reproductible (RFA) qui regroupe les valeurs d'entrée dans des plages d'exposants fixes—par défaut trois bins—pour contrer les problèmes de non-associativité qui surviennent lors de l'addition de nombres avec des magnitudes différentes.

Compromis de performance

Les benchmarks de NVIDIA sur les GPU H200 quantifient le coût de la reproductibilité. Le déterminisme GPU à GPU augmente le temps d'exécution de 20 % à 30 % pour les grandes tailles de problème par rapport au mode relâché. Le déterminisme d'exécution à exécution se situe entre les deux extrêmes.

La configuration RFA à trois bins offre ce que NVIDIA appelle un « défaut optimal » équilibrant précision et vitesse. Plus de bins améliorent la précision numérique mais ajoutent des sommations intermédiaires qui ralentissent l'exécution.

Détails d'implémentation

Les développeurs accèdent aux nouveaux contrôles via cuda::execution::require(), qui construit un objet d'environnement d'exécution transmis aux fonctions de réduction. La syntaxe est simple—définir le déterminisme sur not_guaranteed, run_to_run, ou gpu_to_gpu selon les exigences.

La fonctionnalité ne fonctionne qu'avec l'API monophasée de CUB ; l'ancienne API biphasée n'accepte pas les environnements d'exécution.

Implications plus larges

La reproductibilité en virgule flottante multi-plateformes a été un défi connu dans le calcul haute performance et les applications blockchain, où différents compilateurs, indicateurs d'optimisation et architectures matérielles peuvent produire des résultats divergents à partir d'opérations mathématiquement identiques. L'approche de NVIDIA d'exposer explicitement le déterminisme comme paramètre configurable plutôt que de cacher les détails d'implémentation représente une solution pragmatique.

L'entreprise prévoit d'étendre les contrôles de déterminisme au-delà des réductions à des primitives parallèles supplémentaires. Les développeurs peuvent suivre les progrès et demander des algorithmes spécifiques via le dépôt GitHub de NVIDIA, où un problème ouvert suit la feuille de route étendue du déterminisme.

Source de l'image : Shutterstock
  • nvidia
  • calcul gpu
  • cccl
  • déterminisme en virgule flottante
  • cuda
Opportunité de marché
Logo de Ucan fix life in1day
Cours Ucan fix life in1day(1)
$0.0004678
$0.0004678$0.0004678
-6.02%
USD
Graphique du prix de Ucan fix life in1day (1) en temps réel
Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter [email protected] pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.

Vous aimerez peut-être aussi

L’histoire d’origine de Sunny Lu : d’une arnaque à 100 BTC à la création de VeChain

L’histoire d’origine de Sunny Lu : d’une arnaque à 100 BTC à la création de VeChain

Partager Gazouillement Télégramme WhatsApp LinkedIn E-mail Toutes les actualités sont rigoureusement vérifiées et examinées par les principaux experts de la blo
Partager
Blockchainfrance2026/03/08 11:23
Avis sur Subaru Motors Finance 2026

Avis sur Subaru Motors Finance 2026

Si vous êtes chez un concessionnaire Subaru, votre cœur est déjà tourné vers l'Outback ou le Forester parfait. Le vendeur vous demande : "Souhaitez-vous le financer aujourd'hui ?" C'est là que
Partager
Fintechzoom2026/03/08 10:55
Scott Bessent affirme que la baisse du yuan face à l'euro est un problème pour l'Europe, pas pour l'Amérique

Scott Bessent affirme que la baisse du yuan face à l'euro est un problème pour l'Europe, pas pour l'Amérique

L'article "Scott Bessent affirme que la chute du yuan face à l'euro est un problème pour l'Europe, pas pour l'Amérique" est apparu sur BitcoinEthereumNews.com. Le secrétaire au Trésor américain Scott Bessent a déclaré jeudi à Madrid que la chute de la devise chinoise n'est pas un problème pour les États-Unis, c'est l'Europe qui devrait s'inquiéter. Lors d'une interview conjointe avec Reuters et Bloomberg, Scott a fait ces commentaires après des réunions avec le vice-Premier ministre chinois He Lifeng dans le cadre des discussions commerciales entre les États-Unis et la Chine, qui incluaient également des discussions sur TikTok. Il a clairement indiqué que le yuan, également connu sous le nom de renminbi, s'est en fait renforcé face au dollar américain cette année, mais s'est effondré à un niveau historiquement bas face à l'euro. "Le RMB est en fait plus fort cette année par rapport au dollar. Maintenant, il est à un All-time Low (ATL) par rapport à l'euro, ce qui est un problème pour les Européens", a déclaré Scott, rejetant l'idée que Pékin essayait de dévaluer sa devise pour obtenir un avantage déloyal face à Washington. Il a affirmé que les responsables chinois n'ont rien tenté de tel avec les États-Unis et a expliqué la réalité derrière le mouvement de la devise : "C'est une devise fermée. Donc ils gèrent le niveau." L'effondrement du yuan aide les exportations chinoises à inonder l'Europe Depuis janvier, le yuan a chuté de 7,5 par euro à plus de 8,4, déclenchant des inquiétudes dans toute l'Europe. Pendant ce temps, face au dollar, il a légèrement progressé de 7,3 à 7,1. Cette divergence a créé une dynamique commerciale déséquilibrée, car tandis que les États-Unis ont vu leurs importations en provenance de Chine chuter de 14 % en raison de tarifs douaniers agressifs, l'Europe a enregistré une augmentation de 6,9 % des échanges avec la Chine. Ainsi, Scott a déclaré que les tarifs américains font ce pour quoi ils ont été conçus, réduisant le déficit commercial. Mais le flux réorienté de marchandises chinoises atterrit maintenant sur les marchés européens à la place, où la faiblesse du yuan rend les exportations chinoises encore moins chères en termes d'euros. L'affaiblissement du yuan frappe l'Europe à un moment sensible, alors que la Banque centrale européenne...
Partager
BitcoinEthereumNews2025/09/19 10:16