اگر صحنه هوش مصنوعی محلی را دنبال کردهاید، احتمالاً Qwopus را میشناسید—مدل متنباز که سعی کرد استدلال Claude Opus 4.6 را به Qwen علیبابا تقطیر کند، تا بتوانید چیزی شبیه به Opus را روی سختافزار خودتان بهصورت رایگان اجرا کنید. بهطرز شگفتانگیزی خوب کار کرد. نکته بدیهی: Qwen یک مدل چینی است و همه با آن احساس راحتی نمیکنند.
Jackrong، همان توسعهدهنده تحت نام مستعار پشت آن پروژه، بازخوردها را شنید. پاسخ او Gemopus است—خانواده جدیدی از تنظیمات دقیق به سبک Claude Opus که بهطور کامل بر روی Gemma 4 متنباز گوگل ساخته شده است. DNA کاملاً آمریکایی، همان ایده: استدلال سطح پیشرفته، اجرا بهصورت محلی روی سختافزاری که از قبل دارید.
این خانواده در دو نوع ارائه میشود. Gemopus-4-26B-A4B گزینه سنگینتر است—یک مدل ترکیبی از متخصصان که 26 میلیارد پارامتر کل دارد اما تنها حدود 4 میلیارد را در طول استنتاج فعال میکند، که به این معنی است که در سختافزار محدود بسیار بالاتر از وزن خود عمل میکند.
پارامترها چیزی هستند که ظرفیت یک هوش مصنوعی برای یادگیری، استدلال و ذخیرهسازی اطلاعات را تعیین میکنند. داشتن 26 میلیارد پارامتر کل به مدل وسعت عظیمی از دانش میدهد. اما با فقط "بیدار کردن" 4 میلیارد پارامتر مرتبط با درخواست خاص شما، نتایج با کیفیت بالای یک هوش مصنوعی عظیم را ارائه میدهد در حالی که بهاندازه کافی سبک باقی میماند تا بهصورت روان روی سختافزار روزمره اجرا شود.
دیگری Gemopus-4-E4B است، یک مدل لبه با 4 میلیارد پارامتر که طراحی شده تا بهراحتی روی یک iPhone مدرن یا MacBook نازک و سبک اجرا شود—بدون نیاز به GPU.
انتخاب مدل پایه در اینجا اهمیت دارد. Gemma 4 گوگل، که در 2 آوریل منتشر شد، مستقیماً از همان تحقیقات و فناوری Gemini 3 ساخته شده است—شرکت این را صریحاً در زمان راهاندازی اعلام کرد. این بدان معناست که Gemopus چیزی را حمل میکند که هیچ تنظیم دقیق مبتنی بر Qwen نمیتواند ادعا کند: DNA مدل بسته پیشرفته خود گوگل در زیرساخت، پوشیده شده در سبک تفکر Anthropic در بالا. بهترین هر دو دنیا، کم و بیش.
چیزی که Gemopus را با موج سایر تنظیمات دقیق Gemma که در حال حاضر Hugging Face را پر میکنند متفاوت میکند، فلسفه پشت آن است. Jackrong عمداً انتخاب کرد که ردپاهای استدلال زنجیرهای تفکر Claude را به وزنهای Gemma تحمیل نکند—میانبری که بیشتر انتشارهای رقیب انجام میدهند.
استدلال او، که توسط تحقیقات اخیر پشتیبانی میشود، این است که پر کردن یک مدل دانشآموز با متن استدلال سطحی یک معلم در واقع توانایی استدلال واقعی را منتقل نمیکند. تقلید را میآموزد، نه منطق را. "نیازی به تخیل بیش از حد یا تکرار خرافی زنجیره تفکر به سبک Claude نیست"، کارت مدل میخواند. در عوض، او بر کیفیت پاسخ، وضوح ساختاری و طبیعی بودن مکالمه تمرکز کرد—اصلاح لحن سخت ویکیپدیا Gemma و تمایل آن به سخنرانی درباره چیزهایی که نپرسیدهاید.
مهندس زیرساخت هوش مصنوعی Kyle Hessling معیارهای مستقل را اجرا کرد و نتایج را مستقیماً روی کارت مدل منتشر کرد. حکم او درباره نوع 26B کاملاً مطلوب بود. "خوشحالم که این یکی را کاملاً سخت آزمایش کردم و این یک تنظیم دقیق عالی از یک مدل استثنایی است"، او در X نوشت. "در درخواستهای تکتیر روی زمینههای طولانی عالی است، و به لطف معماری MOE (ترکیب متخصصان) فوقالعاده سریع اجرا میشود."
نوع کوچکتر E4B از تمام 14 آزمون صلاحیت اصلی عبور کرد—پیروی از دستورات، کدنویسی، ریاضیات، استدلال چند مرحلهای، ترجمه، امنیت، ذخیرهسازی—و تمام 12 آزمون زمینه طولانی را در 30K و 60K توکن پاک کرد. در بازیابی سوزن در انبار کاه، از 13 مورد از 13 کاوش عبور کرد از جمله یک آزمون کششی در یک میلیون توکن با مقیاسبندی YaRN 8× RoPE.
26B بهطور بومی به زمینه 131K گسترش مییابد و تا 524K با YaRN، که Hessling نیز آن را تست استرس کرد: "همچنین آزمایشهای ساده سوزن در انبار کاه من را تا زمینه گستردهیافته 524k در هم شکست!"
روی سختافزار لبه، E4B واقعاً سریع است. Jackrong 45–60 توکن در ثانیه روی iPhone 17 Pro Max، و 90–120 توکن در ثانیه روی MacBook Air M3/M4 از طریق MLX را گزارش میدهد. معماری 26B MoE به این معنی است که بهطور شکیل روی سیستمهای حافظه یکپارچه یا GPUهای با کمتر از 10GB از VRAM تخلیه میشود. Hessling آن را توصیه راننده روزانه خود برای تنظیمات گرسنه VRAM نامید.
هر دو مدل در فرمت GGUF در دسترس هستند، که به این معنی است که میتوانید آنها را مستقیماً به LM Studio یا llama.cpp بدون پیکربندی بیاندازید. کد آموزشی کامل و راهنمای تنظیم دقیق گام به گام در GitHub Jackrong است—همان خط لوله که او برای Qwopus استفاده کرد، همان تنظیم Unsloth و LoRA، قابل تکرار روی Colab.
Gemopus بدون لبههای ناهموار نیست. فراخوانی ابزار در کل سری Gemma 4 در llama.cpp و LM Studio شکسته باقی میماند—شکست فراخوانی، عدم تطابق فرمت، حلقهها—بنابراین اگر گردش کار شما به عوامل استفاده از ابزارهای خارجی بستگی دارد، این هنوز مدل شما نیست. خود Jackrong آن را "یک مرجع کاوش مهندسی به جای یک راهحل کاملاً آماده تولید" مینامد، و سری Qwopus 3.5 خود را به هر کسی که به چیزی پایدارتر برای بارهای کاری واقعی نیاز دارد توصیه میکند.
و چون Jackrong عمداً از تقطیر زنجیرهای تفکر تهاجمی به سبک Claude اجتناب کرد، انتظار نداشته باشید که به عمق Opus-brained مانند Qwopus احساس کند—این یک معامله آگاهانه برای ثبات بود، نه یک نظارت.
برای کسانی که میخواهند عمیقتر به تنظیم دقیق Gemma برای استدلال بهطور خاص بپردازند، یک پروژه جامعه جداگانه نیز وجود دارد که ارزش تماشا دارد: Ornstein توسط توسعهدهنده تحت نام مستعار DJLougen، که همان پایه Gemma 4 26B را میگیرد و بهطور خاص بر بهبود زنجیرههای استدلال آن بدون تکیه بر منطق یا سبک هر مدل شخص ثالث خاص تمرکز میکند.
یک هشدار صادقانه: دینامیکهای آموزشی Gemma برای تنظیمکنندههای دقیق نسبت به Qwen درهمتر است—نوسانات زیان گستردهتر، حساسیت فراپارامتر بیشتر. خود Jackrong این را میگوید. اگر به یک مدل محلی آزمودهشدهتر برای گردشهای کاری تولید نیاز دارید، سری Qwopus 3.5 او همچنان بهطور قویتر اعتبارسنجی شده باقی میماند. اما اگر یک مدل آمریکایی با پرداخت به سبک Opus میخواهید، Gemopus در حال حاضر بهترین گزینه موجود شما است. یک نوع 31B متراکمتر Gemopus نیز در خط لوله است، با Hessling که آن را بهعنوان "یک موفقیت مطمئن" معرفی میکند.
اگر میخواهید مدلهای محلی را روی سختافزار خودتان اجرا کنید، راهنمای ما را درباره نحوه شروع با هوش مصنوعی محلی بررسی کنید.
خبرنامه گزارش روزانه
هر روز را با مهمترین داستانهای خبری در حال حاضر، به علاوه ویژگیهای اصلی، یک پادکست، ویدیوها و موارد دیگر شروع کنید.
منبع: https://decrypt.co/364344/gemopus-gemma-4-claude-opus-style-local-ai







