NVIDIA-এর নতুন FP8 রেসিপি রিইনফোর্সমেন্ট লার্নিংয়ের জন্য BF16 নির্ভুলতার সাথে মিল রেখে 48% দ্রুত প্রশিক্ষণ প্রদান করে, যা AI অবকাঠামো খরচ উল্লেখযোগ্যভাবে কমিয়ে দেয়। (পড়ুনNVIDIA-এর নতুন FP8 রেসিপি রিইনফোর্সমেন্ট লার্নিংয়ের জন্য BF16 নির্ভুলতার সাথে মিল রেখে 48% দ্রুত প্রশিক্ষণ প্রদান করে, যা AI অবকাঠামো খরচ উল্লেখযোগ্যভাবে কমিয়ে দেয়। (পড়ুন

NVIDIA NeMo RL এন্ড-টু-এন্ড FP8 প্রিসিশন ট্রেনিং এর মাধ্যমে ৪৮% স্পিডআপ অর্জন করেছে

2026/04/21 07:41
3 মিনিটে পড়া যাবে
এই বিষয়বস্তু সম্পর্কে মতামত বা উদ্বেগ জানাতে, অনুগ্রহ করে আমাদের সাথে [email protected] ঠিকানায় যোগাযোগ করুন

NVIDIA NeMo RL এন্ড-টু-এন্ড FP8 প্রিসিশন ট্রেনিং সহ ৪৮% গতি বৃদ্ধি অর্জন করেছে

জেসি এ এলিস এপ্রিল ২০, ২০২৬ ২৩:৪১

NVIDIA-এর রিইনফোর্সমেন্ট লার্নিং-এর জন্য নতুন FP8 রেসিপি BF16 নির্ভুলতার সাথে মিল রেখে ৪৮% দ্রুত ট্রেনিং প্রদান করে, AI অবকাঠামো খরচ উল্লেখযোগ্যভাবে কমায়।

NVIDIA NeMo RL এন্ড-টু-এন্ড FP8 প্রিসিশন ট্রেনিং সহ ৪৮% গতি বৃদ্ধি অর্জন করেছে

NVIDIA রিইনফোর্সমেন্ট লার্নিং-এর জন্য একটি ব্যাপক FP8 প্রিসিশন রেসিপি প্রকাশ করেছে যা ঐতিহ্যবাহী BF16 পদ্ধতির সাথে নির্ভুলতা সমতা বজায় রেখে ৪৮% পর্যন্ত দ্রুত ট্রেনিং থ্রুপুট প্রদান করে—AI অবকাঠামো খরচ এবং GPU কম্পিউট অর্থনীতির জন্য উল্লেখযোগ্য প্রভাব সহ একটি উন্নয়ন।

NVIDIA-এর গুয়ুয়ে হুয়াং-এর একটি প্রযুক্তিগত ব্লগ পোস্টে বিস্তারিত এই কৌশলটি RL ট্রেনিং-এর সবচেয়ে জটিল সমস্যাগুলির একটি সমাধান করে: পৃথক ইঞ্জিনে বিভিন্ন প্রিসিশন লেভেল ব্যবহার করার সময় জেনারেশন এবং ট্রেনিং পর্যায়ের মধ্যে সংখ্যাগত অমিল।

প্রযুক্তিগত অগ্রগতি

ঐতিহ্যবাহী RL পাইপলাইন রোলআউটের জন্য vLLM এবং ট্রেনিং-এর জন্য Megatron Core ব্যবহার করে—প্রতিটিতে অনন্য CUDA কার্নেল রয়েছে যা ক্রমবর্ধমান সংখ্যাগত পার্থক্য তৈরি করে। এই অসঙ্গতিগুলি নিম্ন প্রিসিশন লেভেলে বৃদ্ধি পায়, ঐতিহাসিকভাবে FP8 গ্রহণকে সীমিত করে।

NVIDIA-এর সমাধান? প্রিসিশন লেভেল মিশ্রিত করার পরিবর্তে জেনারেশন এবং ট্রেনিং উভয় ক্ষেত্রেই সামঞ্জস্যপূর্ণভাবে FP8 প্রয়োগ করুন। Llama 3.1 8B Instruct-এ পরীক্ষা করে দেখা গেছে এন্ড-টু-এন্ড FP8-এর সাথে ভ্যালিডেশন নির্ভুলতা ০.৬১৩ এবং BF16-এর জন্য ০.৬১৬—কার্যকরভাবে ব্যবধান বন্ধ করে। এদিকে, শুধুমাত্র জেনারেশনের জন্য FP8 ব্যবহার করলে নির্ভুলতা ০.৫৮৬-এ নেমে আসে।

রেসিপিটি ওজনের জন্য ১২৮x১২৮ গ্র্যানুলারিটি এবং অ্যাক্টিভেশনের জন্য ১x১২৮ সহ ব্লক-ওয়াইজ কোয়ান্টাইজড FP8 (E4M3 ফর্ম্যাট) ব্যবহার করে। লিনিয়ার লেয়ারগুলি BF16-এর তুলনায় ২x তাত্ত্বিক পিক থ্রুপুটে FP8 ম্যাথ চালায়, যখন অ্যাটেনশন, নরমালাইজেশন এবং নন-লিনিয়ার ফাংশনগুলি BF16-এ থাকে।

বাস্তব-বিশ্ব পারফরম্যান্স লাভ

শুধুমাত্র লিনিয়ার লেয়ারের জন্য, FP8 রেসিপি ধারাবাহিক ১৫-২৫% থ্রুপুট উন্নতি প্রদান করে। তাত্ত্বিক ২x গতি বৃদ্ধি এবং প্রকৃত লাভের মধ্যে ব্যবধান BF16-এ থাকা অ্যাটেনশন লেয়ার এবং কোয়ান্টাইজেশন কার্নেল ওভারহেড থেকে আসে।

KV ক্যাশ এবং অ্যাটেনশন অপারেশনে FP8 সম্প্রসারণ করলে BF16 বেসলাইনের তুলনায় মোট গতি বৃদ্ধি প্রায় ৪৮%-এ পৌঁছায়। সমস্যা: RL-এর ক্রমাগত আপডেট হওয়া পলিসি ওজনগুলি প্রতিটি ট্রেনিং ধাপের পরে কোয়ান্টাইজেশন স্কেলের ডায়নামিক পুনঃক্যালিব্রেশন প্রয়োজন। NVIDIA-এর পদ্ধতি এই পুনঃক্যালিব্রেশনের জন্য প্রায় ২-৩% ওভারহেড যোগ করে—উল্লেখযোগ্য ত্বরণের জন্য একটি সামান্য খরচ।

Qwen3-30B (একটি মিক্সচার-অফ-এক্সপার্টস মডেল) এ পরীক্ষা করে FP8 এবং BF16 কনফিগারেশনের মধ্যে মিলিত নির্ভুলতা কার্ভ দেখানো হয়েছে, যা পরামর্শ দেয় যে কৌশলটি আর্কিটেকচার জুড়ে স্কেল করে।

AI অর্থনীতির জন্য এটি কেন গুরুত্বপূর্ণ

উন্নত AI সহায়কদের পিছনের মতো যুক্তি-সক্ষম মডেলগুলির জন্য RL ট্রেনিং বিশাল কম্পিউট প্রয়োজন। ৪৮% গতি বৃদ্ধি সরাসরি এই সিস্টেমগুলি ট্রেনিং করা সংস্থাগুলির জন্য হ্রাসকৃত GPU-ঘন্টা এবং কম বিদ্যুৎ বিলে অনুবাদ করে।

নির্ভুলতা সংরক্ষণ সক্ষম করে এমন গুরুত্ব স্যাম্পলিং কৌশল সমানভাবে মূল্যবান প্রমাণিত হতে পারে। প্রতি-টোকেন ভিত্তিতে জেনারেশন এবং ট্রেনিং মডেলের মধ্যে ডিস্ট্রিবিউশন অমিল সংশোধন করে, এটি মডেল গুণমান ত্যাগ না করে আক্রমণাত্মক প্রিসিশন হ্রাস অনুমোদন করে।

সম্পূর্ণ বাস্তবায়ন NVIDIA-এর ওপেন-সোর্স NeMo RL লাইব্রেরিতে উপলব্ধ, Llama 3.1 8B এবং Moonlight 16B মডেলগুলির জন্য প্রি-কনফিগার্ড রেসিপি সহ। উন্নত ব্যবহারকারীরা পদ্ধতিটি ফাইন-টিউন করতে পারেন—নির্দিষ্ট ট্রান্সফরমার লেয়ার BF16-এ রাখা বা অতিরিক্ত অপ্টিমাইজেশনের জন্য পাওয়ার-অফ-২ স্কেলিং ফ্যাক্টরে স্যুইচ করা।

মডেল জটিলতার পাশাপাশি কম্পিউট খরচ বৃদ্ধি দেখছে এমন AI অবকাঠামো অপারেটরদের জন্য, এটি একটি অর্থবহ দক্ষতা লিভার প্রতিনিধিত্ব করে যা হার্ডওয়্যার আপগ্রেড প্রয়োজন করে না—শুধু বিদ্যমান H100 ক্ষমতার স্মার্ট ব্যবহার।

চিত্রের উৎস: Shutterstock
  • nvidia
  • ai ট্রেনিং
  • fp8 প্রিসিশন
  • মেশিন লার্নিং
  • nemo rl
ডিসক্লেইমার: এই সাইটে পুনঃপ্রকাশিত নিবন্ধগুলো সর্বসাধারণের জন্য উন্মুক্ত প্ল্যাটফর্ম থেকে সংগ্রহ করা হয়েছে এবং শুধুমাত্র তথ্যের উদ্দেশ্যে প্রদান করা হয়েছে। এগুলো আবশ্যিকভাবে MEXC-এর মতামতকে প্রতিফলিত করে না। সমস্ত অধিকার মূল লেখকদের কাছে সংরক্ষিত রয়েছে। আপনি যদি মনে করেন কোনো কনটেন্ট তৃতীয় পক্ষের অধিকার লঙ্ঘন করেছে, তাহলে অনুগ্রহ করে অপসারণের জন্য [email protected] এ যোগাযোগ করুন। MEXC কনটেন্টের সঠিকতা, সম্পূর্ণতা বা সময়োপযোগিতা সম্পর্কে কোনো গ্যারান্টি দেয় না এবং প্রদত্ত তথ্যের ভিত্তিতে নেওয়া কোনো পদক্ষেপের জন্য দায়ী নয়। এই কনটেন্ট কোনো আর্থিক, আইনগত বা অন্যান্য পেশাদার পরামর্শ নয় এবং এটি MEXC-এর সুপারিশ বা সমর্থন হিসেবে গণ্য করা উচিত নয়।

আপনি আরও পছন্দ করতে পারেন

রিপল XRP লেজারকে কোয়ান্টাম-রেডি করার জন্য ২০২৮ সালের লক্ষ্য নির্ধারণ করেছে

রিপল XRP লেজারকে কোয়ান্টাম-রেডি করার জন্য ২০২৮ সালের লক্ষ্য নির্ধারণ করেছে

পোস্টটি Ripple Sets 2028 Target to Make XRP Ledger Quantum-Ready BitcoinEthereumNews.com-এ প্রকাশিত হয়েছে। Ripple জানিয়েছে যে XRP Ledger একটি চার-পর্যায়ের রোডম্যাপ অনুসরণ করবে
শেয়ার করুন
BitcoinEthereumNews2026/04/21 08:49
মরগান স্ট্যানলি বিটকয়েন ETF প্রথম সপ্তাহে $100 মিলিয়নের বেশি আকৃষ্ট করেছে

মরগান স্ট্যানলি বিটকয়েন ETF প্রথম সপ্তাহে $100 মিলিয়নের বেশি আকৃষ্ট করেছে

মূল অন্তর্দৃষ্টি মরগ্যান স্ট্যানলির স্পট Bitcoin এক্সচেঞ্জ-ট্রেডেড ফান্ড (ETF) MSBT শুধুমাত্র প্রথম সপ্তাহেই $100 মিলিয়নের বেশি ইনফ্লো রেকর্ড করেছে, যা বৃহৎ প্রাতিষ্ঠানিক বিনিয়োগের একটি চিহ্ন
শেয়ার করুন
Themarketperiodical2026/04/21 10:29
ট্রাম্পের অনুমোদন রেটিং হ্রাস পাওয়ার মধ্যে শীর্ষ সহায়ক GOP থেকে সাহায্য চাইছেন

ট্রাম্পের অনুমোদন রেটিং হ্রাস পাওয়ার মধ্যে শীর্ষ সহায়ক GOP থেকে সাহায্য চাইছেন

হোয়াইট হাউসের চিফ অফ স্টাফ সুসি ওয়াইলস সম্ভাব্য বিধ্বংসী পরিস্থিতির জন্য প্রস্তুতি নিতে সারাদেশের কয়েক ডজন রিপাবলিকান কৌশলবিদদের সাথে একটি জরুরি বদ্ধ-দরজা শীর্ষ সম্মেলন ডেকেছেন
শেয়ার করুন
Rawstory2026/04/21 10:56

24/7 লাইভ নিউজ

আরও

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!