পোস্ট Qwen 3.5 Omni: Alibaba's AI Model Can Now Hear, Watch, and Clone Your Voice BitcoinEthereumNews.com-এ প্রকাশিত হয়েছে। সংক্ষেপে Alibaba's Qwen 3.5 Omni নিয়ে আসেপোস্ট Qwen 3.5 Omni: Alibaba's AI Model Can Now Hear, Watch, and Clone Your Voice BitcoinEthereumNews.com-এ প্রকাশিত হয়েছে। সংক্ষেপে Alibaba's Qwen 3.5 Omni নিয়ে আসে

Qwen 3.5 Omni: আলিবাবার AI মডেল এখন শুনতে, দেখতে এবং আপনার কণ্ঠস্বর ক্লোন করতে পারে

2026/03/31 04:07
5 মিনিটে পড়া যাবে
এই বিষয়বস্তু সম্পর্কে মতামত বা উদ্বেগ জানাতে, অনুগ্রহ করে আমাদের সাথে [email protected] ঠিকানায় যোগাযোগ করুন

সংক্ষেপে

  • আলিবাবার Qwen 3.5 Omni সীমান্ত প্রতিযোগিতায় প্রকৃত রিয়েল-টাইম অম্নিমোডাল AI নিয়ে আসছে।
  • নেটিভ অডিও-ভিজ্যুয়াল প্রসেসিং গতি এবং সামঞ্জস্যে স্টিচড মাল্টিমোডাল পাইপলাইনকে হারায়।
  • ভয়েস ক্লোনিং, সিম্যান্টিক ইন্টারাপশন এবং ভাইব কোডিং সম্পূর্ণ ইন্টারঅ্যাক্টিভ AI এজেন্টের দিকে একটি পরিবর্তনের ইঙ্গিত দেয়।

আলিবাবা সবেমাত্র তার সবচেয়ে উচ্চাভিলাষী AI আপগ্রেড প্রকাশ করেছে।

কোম্পানির Qwen টিম রবিবার Qwen 3.5 Omni প্রকাশ করেছে, এটি তার "অম্নিমোডাল" AI-এর একটি নতুন সংস্করণ যা একযোগে টেক্সট, ছবি, অডিও এবং ভিডিও প্রসেস করে এবং 36টি ভাষায় রিয়েল টাইমে সাড়া দেয়, যা এর মডেলকে বর্তমানে উপলব্ধ সর্বশেষ অত্যাধুনিক AI ফাউন্ডেশনাল মডেলগুলির সাথে একই যুদ্ধক্ষেত্রে স্থাপন করে।

"Omni" এখানে শুধুমাত্র একটি মার্কেটিং বাজওয়ার্ড নয়। আপনি যে বেশিরভাগ AI মডেলের সাথে যোগাযোগ করেন তা প্রাথমিকভাবে টেক্সট-ইন, টেক্সট-আউট সিস্টেম। কিছু ছবি পরিচালনা করে, কিছু ভয়েস পরিচালনা করে। Qwen 3.5 Omni থার্ড-পার্টি টুলের মাধ্যমে সবকিছুকে টেক্সটে রূপান্তর করার প্রয়োজন ছাড়াই একসাথে নেটিভভাবে সেগুলি সবই পরিচালনা করে।

নতুন মডেলটি তিনটি আকারে আসে—Plus, Flash এবং Light—সবগুলি একটি ছোট (আজকের মান অনুসারে) 256,000-টোকেন কনটেক্সট উইন্ডো সমর্থন করে। এটি 100 মিলিয়ন ঘন্টারও বেশি অডিও-ভিজ্যুয়াল ডেটাতে প্রশিক্ষিত হয়েছে—এমন একটি স্কেল যা এটিকে বেশিরভাগ প্রতিযোগীদের থেকে ভিন্ন ওজন শ্রেণিতে রাখে।

Qwen 3.5 Omni হল Qwen 3 Omni Flash-এর একটি বিবর্তন, আলিবাবার পূর্ববর্তী অম্নিমোডাল মডেল যা ডিসেম্বর 2025-এ প্রকাশিত হয়েছিল। সেই সংস্করণটি ইতিমধ্যে ভিডিও এবং অডিও একযোগে প্রসেস করার ক্ষমতা দিয়ে প্রভাবিত করেছিল—এটি একাধিক ভিজ্যুয়াল ইনপুট সমন্বিত ইমেজ এডিটিং নির্দেশনাগুলি পরিচালনা করতে পারত যেভাবে প্রতিযোগীরা পারত না—এবং 234 মিলিসেকেন্ডের মতো কম লেটেন্সি সহ ভয়েস রেসপন্স স্ট্রিম করত।

এটি Google-এর NotebookLM-এর বিকল্প চেষ্টা করা প্রথম মডেলও ছিল। এটি কিছু অর্জন করেছিল, কিন্তু গুণমান Google-এর অফারের সমান ছিল না।

Qwen 3.5 Omni এই সবকিছু নেয় এবং একটি দীর্ঘ কনটেক্সট উইন্ডো, উন্নত রিজনিং, অনেক বিস্তৃত ভাষা লাইব্রেরি এবং রিয়েল-টাইম ইন্টারঅ্যাকশন বৈশিষ্ট্যগুলির একটি সেট যোগ করে যা পূর্ববর্তী প্রজন্মের ছিল না।

হেডলাইন আপগ্রেড হল যখন আপনি আসলে এটির সাথে কথা বলেন তখন কী ঘটে। Qwen3.5-Omni এখন সিম্যান্টিক ইন্টারাপশন সমর্থন করে: এটি আপনি বাক্যের মাঝখানে "উহ-হুহ" বলা এবং আসলে কাটতে চাওয়ার মধ্যে পার্থক্য বলতে পারে, তাই এটি প্রতিবার কেউ পটভূমিতে কাশি দিলে চিন্তার মাঝখানে থামবে না, যা কথ্য ইন্টারঅ্যাকশনকে আরও সহজ করে তোলে।

ARIA নামে একটি নতুন কৌশল, যার পূর্ণরূপ Adaptive Rate Interleave Alignment, একটি সূক্ষ্ম কিন্তু ক্রমাগত বিরক্তিও ঠিক করে: AI সিস্টেম যা জোরে পড়ার সময় সংখ্যা বা অস্বাভাবিক শব্দগুলি বিকৃত করে। ARIA আউটপুট স্বাভাবিক এবং নির্ভুল রাখতে গতিশীলভাবে টেক্সট এবং স্পিচ সিঙ্ক করে।

তারপর ভয়েস ক্লোনিং রয়েছে। ব্যবহারকারীরা একটি ভয়েস নমুনা আপলোড করতে পারেন এবং মডেলটি তার প্রতিক্রিয়াগুলিতে সেই ভয়েস গ্রহণ করতে পারে, এমন একটি বৈশিষ্ট্য যা Qwen-কে সরাসরি ElevenLabs এবং অন্যান্য ডেডিকেটেড ভয়েস টুলগুলির সাথে প্রতিযোগিতায় রাখে। যদিও আমরা এই বৈশিষ্ট্যটি অ্যাক্সেস করতে পারিনি, কারণ এটি এমন একটি বৈশিষ্ট্য যা অন্তত এখনকার জন্য শুধুমাত্র API-এর মাধ্যমে উপলব্ধ।

বহুভাষিক ভয়েস স্থিতিশীলতা বেঞ্চমার্কে, Qwen3.5 Omni-Plus 20টি ভাষায় ElevenLabs, GPT-Audio এবং Minimax-কে হারিয়েছে। মডেলটি এখন রিয়েল-টাইম ওয়েব সার্চ সমর্থন করে, যার অর্থ এটি ব্রেকিং নিউজ বা লাইভ মার্কেট ডেটা সম্পর্কে প্রশ্নের উত্তর দিতে পারে এটি ইতিমধ্যে জানে এমন ভান না করে।

টিমটি যাকে তারা "অডিও-ভিজ্যুয়াল ভাইব কোডিং" বলছে তাও হাইলাইট করছে, মডেলটি একটি কোডিং টাস্কের একটি স্ক্রিন রেকর্ডিং বা ভিডিও দেখতে পারে এবং সম্পূর্ণভাবে এটি যা দেখে এবং শোনে তার উপর ভিত্তি করে কার্যকরী কোড লিখতে পারে, কোনও টেক্সট প্রম্পট প্রয়োজন নেই। এটি AI সহায়করা আপনার ওয়ার্কফ্লোর পাশাপাশি না হয়ে এর ভিতরে কীভাবে কাজ করতে পারে তার একটি ছোট পূর্বরূপ।

"অম্নিমোডাল" আসলে অনুশীলনে কী বোঝায় তা বুঝতে, আমরা একটি দ্রুত পরীক্ষা চালিয়েছিলাম: আমরা Qwen3.5-Omni এবং ChatGPT 5.4 উভয়কে "থিংকিং" মোডে একই YouTube Short খাওয়ালাম—Dastan President (Dastan হল Decrypt-এর মূল কোম্পানি) এবং ভাষ্যকার Farokh ব্রেকিং নিউজ নিয়ে আলোচনা করার একটি ক্লিপ। Qwen 3.5 Omni ভিডিওটি নেটিভভাবে প্রসেস করেছে এবং প্রায় এক মিনিটে একটি সম্পূর্ণ বিশ্লেষণ ফিরিয়েছে: কে কথা বলছিল, তারা কী নিয়ে আলোচনা করছিল এবং বিষয় এলাকা সম্পর্কে তার নিজস্ব জ্ঞানের উপর ভিত্তি করে বিষয়টির উপর একটি সারবত্তাপূর্ণ মন্তব্য।

ChatGPT 5.4, যা অম্নিমোডাল নয়, এটি যা পেয়েছিল তা দিয়ে পরিচালনা করতে হয়েছিল। এটি ভিডিও থেকে ফ্রেম বের করেছে, সেগুলি একটি ভিশন মডেলের মাধ্যমে চালিয়েছে, অডিও ট্রান্সক্রাইব করতে Whisper ব্যবহার করেছে এবং এম্বেডেড সাবটাইটেল পড়তে একটি OCR টুল প্রয়োগ করেছে—তিনটি পৃথক প্রক্রিয়া একসাথে সেলাই করা হয়েছে Qwen3.5-Omni একটি একক পাসে যা করে তা আনুমানিক করতে। ফলাফলটি নয় মিনিট সময় নিয়েছিল, এবং এটি আদর্শ পরিস্থিতিতে: একটি ভাল-আলোকিত ভিডিও পরিষ্কার অডিও এবং বার্ন-ইন সাবটাইটেল সহ। বাস্তব-বিশ্বের কন্টেন্ট খুব কমই তিনটিই অফার করে।

একাধিক ইনপুট জুড়ে আমাদের দ্রুত পরীক্ষায়, মডেলটি স্প্যানিশ, পর্তুগিজ এবং ইংরেজিতে প্রম্পটগুলি সমস্যা ছাড়াই পরিচালনা করেছে—কনটেক্সট হারানো ছাড়াই কথোপকথনের মাঝখানে ভাষা পরিবর্তন করে।

স্ট্যান্ডার্ড বেঞ্চমার্কগুলিতে, Qwen 3.5 Omni Plus সাধারণ অডিও বোঝাপড়া, রিজনিং এবং অনুবাদ কাজগুলিতে Gemini 3.1 Pro-কে ছাড়িয়ে গেছে এবং অডিও-ভিজ্যুয়াল কমপ্রিহেনশনে এটির সাথে মিলেছে। স্পিচ রিকগনিশন এখন 113টি ভাষা এবং উপভাষা কভার করে—পূর্ববর্তী প্রজন্মের 19 থেকে বৃদ্ধি পেয়েছে।

এটি ছয় সপ্তাহে আলিবাবার দ্বিতীয় বড় AI প্রকাশ। ফেব্রুয়ারিতে, এটি Qwen 3.5 লঞ্চ করেছিল, একটি টেক্সট-এবং-ভিশন মডেল যা রিজনিং এবং কোডিং বেঞ্চমার্কে ফ্রন্টিয়ার মডেলগুলির সাথে মিলেছে বা হারিয়েছে—এমন একটি ধারার অংশ যার মধ্যে Qwen Deep Research এবং OpenAI এবং Google-এর প্রতিদ্বন্দ্বী টুলগুলির একটি লাইনআপও অন্তর্ভুক্ত রয়েছে। Qwen 3.5 Omni সেই গতিকে সম্পূর্ণ মাল্টিমোডাল অঞ্চলে প্রসারিত করে, এমন একটি সময়ে যখন প্রতিটি প্রধান AI ল্যাব মানব যোগাযোগের সম্পূর্ণ স্পেকট্রাম পরিচালনা করে এমন সিস্টেম তৈরি করতে প্রতিযোগিতা করছে—শুধুমাত্র স্ক্রিনে শব্দ নয়।

মডেলটি এখন Alibaba Cloud-এর API-এর মাধ্যমে উপলব্ধ এবং সরাসরি Qwen Chat-এ বা Hugging Face-এর অনলাইন ডেমোর মাধ্যমে পরীক্ষা করা যেতে পারে।

ডেইলি ডিব্রিফ নিউজলেটার

প্রতিদিন শুরু করুন শীর্ষ সংবাদ গল্প দিয়ে এখনই, সাথে মূল ফিচার, একটি পডকাস্ট, ভিডিও এবং আরও অনেক কিছু।

সূত্র: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

মার্কেটের সুযোগ
Confidential Layer লোগো
Confidential Layer প্রাইস(CLONE)
$0.005058
$0.005058$0.005058
-1.09%
USD
Confidential Layer (CLONE) লাইভ প্রাইস চার্ট
ডিসক্লেইমার: এই সাইটে পুনঃপ্রকাশিত নিবন্ধগুলো সর্বসাধারণের জন্য উন্মুক্ত প্ল্যাটফর্ম থেকে সংগ্রহ করা হয়েছে এবং শুধুমাত্র তথ্যের উদ্দেশ্যে প্রদান করা হয়েছে। এগুলো আবশ্যিকভাবে MEXC-এর মতামতকে প্রতিফলিত করে না। সমস্ত অধিকার মূল লেখকদের কাছে সংরক্ষিত রয়েছে। আপনি যদি মনে করেন কোনো কনটেন্ট তৃতীয় পক্ষের অধিকার লঙ্ঘন করেছে, তাহলে অনুগ্রহ করে অপসারণের জন্য [email protected] এ যোগাযোগ করুন। MEXC কনটেন্টের সঠিকতা, সম্পূর্ণতা বা সময়োপযোগিতা সম্পর্কে কোনো গ্যারান্টি দেয় না এবং প্রদত্ত তথ্যের ভিত্তিতে নেওয়া কোনো পদক্ষেপের জন্য দায়ী নয়। এই কনটেন্ট কোনো আর্থিক, আইনগত বা অন্যান্য পেশাদার পরামর্শ নয় এবং এটি MEXC-এর সুপারিশ বা সমর্থন হিসেবে গণ্য করা উচিত নয়।

আপনি আরও পছন্দ করতে পারেন

বিটকয়েনের মূল্য কেন পতন ঘটছে: Pepeto প্রিসেল প্রাথমিক বিনিয়োগকারীদের থেকে $8 মিলিয়ন টেনে নিচ্ছে যখন SOL এবং DOGE রক্তক্ষরণ হচ্ছে

বিটকয়েনের মূল্য কেন পতন ঘটছে: Pepeto প্রিসেল প্রাথমিক বিনিয়োগকারীদের থেকে $8 মিলিয়ন টেনে নিচ্ছে যখন SOL এবং DOGE রক্তক্ষরণ হচ্ছে

আপনার স্ক্রিনে থাকা সংখ্যা গত মাসের তুলনায় ছোট, এবং আপনার চারপাশের আতঙ্ক বাস্তব। Bitcoin অক্টোবর 2025-এর $126 এর উচ্চতা থেকে প্রায় অর্ধেক মূল্য হারিয়েছে
শেয়ার করুন
Captainaltcoin2026/04/03 19:30
XRP মূল্য আবারও Q1 লোকসানে শেষ হয়েছে, তবে পূর্ববর্তী পারফরম্যান্স বলছে একটি উত্থান আসছে

XRP মূল্য আবারও Q1 লোকসানে শেষ হয়েছে, তবে পূর্ববর্তী পারফরম্যান্স বলছে একটি উত্থান আসছে

পোস্টটি XRP Price Completes Q1 In The Red Again, But Prior Performance Says A Surge Is Coming BitcoinEthereumNews.com-এ প্রকাশিত হয়েছে। XRP-এর মাসের সমাপ্তি
শেয়ার করুন
BitcoinEthereumNews2026/04/03 19:36
ব্যাঙ্কগুলি কেন অ্যাকাউন্ট সীমাবদ্ধ করে (এবং পরবর্তীতে কী ঘটে)

ব্যাঙ্কগুলি কেন অ্যাকাউন্ট সীমাবদ্ধ করে (এবং পরবর্তীতে কী ঘটে)

একটি বিশ্বে যেখানে বেশিরভাগ আর্থিক কার্যক্রম ডিজিটালভাবে ঘটে, আপনার ব্যাংক অ্যাকাউন্টে অ্যাক্সেস হারানো হঠাৎ এবং চাপযুক্ত মনে হতে পারে। একদিন সবকিছু ঠিকঠাক কাজ করে, এবং
শেয়ার করুন
Techbullion2026/04/03 19:40

24/7 লাইভ নিউজ

আরও

$30,000 in PRL + 15,000 USDT

$30,000 in PRL + 15,000 USDT$30,000 in PRL + 15,000 USDT

Deposit & trade PRL to boost your rewards!