Dacă ai urmărit scena AI locală, probabil știi despre Qwopus—modelul open-source care a încercat să distileze raționamentul Claude Opus 4.6 în Qwen de la Alibaba, astfel încât să poți rula ceva asemănător cu Opus pe propriul hardware gratuit. A funcționat surprinzător de bine. Dezavantajul evident: Qwen este un model chinezesc, și nu toată lumea este confortabilă cu asta.
Jackrong, același dezvoltator pseudonim din spatele acelui proiect, a auzit feedback-ul. Răspunsul său este Gemopus—o nouă familie de fine-tune-uri în stil Claude Opus construite în întregime pe Gemma 4 open-source de la Google. ADN complet american, aceeași idee: raționament de nivel frontier, rulând local pe hardware-ul pe care îl deții deja.
Familia vine în două variante. Gemopus-4-26B-A4B este opțiunea mai grea—un model Mixture of Experts care are 26 de miliarde de parametri totali, dar activează doar aproximativ 4 miliarde în timpul inferenței, ceea ce înseamnă că performează mult peste greutatea sa pe hardware limitat.
Parametrii sunt cei care determină capacitatea unui AI de a învăța, raționa și stoca informații. Având 26 de miliarde de parametri totali, oferă modelului o vastă amploare de cunoștințe. Dar activând doar cei 4 miliarde de parametri relevanți pentru prompt-ul tău specific, livrează rezultate de înaltă calitate ale unui AI masiv, rămânând în același timp suficient de ușor pentru a rula fluid pe hardware obișnuit.
Celălalt este Gemopus-4-E4B, un model edge de 4 miliarde de parametri conceput să ruleze confortabil pe un iPhone modern sau un MacBook subțire și ușor—fără GPU necesar.
Alegerea modelului de bază contează aici. Gemma 4 de la Google, lansat pe 2 aprilie, este construit direct din aceeași cercetare și tehnologie ca Gemini 3—compania a spus-o explicit la lansare. Asta înseamnă că Gemopus poartă ceva ce niciun fine-tune bazat pe Qwen nu poate pretinde: ADN-ul propriului model închis de ultimă generație al Google sub capotă, învelit în stilul de gândire al Anthropic deasupra. Ce e mai bun din ambele lumi, mai mult sau mai puțin.
Ceea ce face Gemopus diferit de valul de alte fine-tune-uri Gemma care inundă Hugging Face chiar acum este filosofia din spatele lui. Jackrong a ales deliberat să nu forțeze urmele de raționament chain-of-thought ale Claude în ponderile Gemma—o scurtătură pe care cele mai multe versiuni concurente o iau.
Argumentul său, susținut de cercetări recente, este că umplerea unui model student cu textul de raționament superficial al unui profesor nu transferă de fapt abilitatea reală de raționament. Învață imitația, nu logica. "Nu este nevoie de imaginație excesivă sau replicare superstiției a lanțului de gândire în stil Claude," se citește pe cardul modelului. În schimb, s-a concentrat pe calitatea răspunsului, claritatea structurală și naturalețea conversației—remediind tonul rigid de Wikipedia al Gemma și tendința sa de a-ți ține prelegeri despre lucruri pe care nu le-ai cerut.
Inginerul de infrastructură AI Kyle Hessling a efectuat benchmark-uri independente și a publicat rezultatele direct pe cardul modelului. Verdictul său asupra variantei 26B a fost destul de favorabil. "Fericit că am testat asta destul de intens și este un fine-tune excelent al unui model deja excepțional," a scris pe X. "Este extraordinar la cereri one-shot peste contexte lungi și rulează incredibil de rapid datorită arhitecturii MOE (mixture of experts)."
Varianta mai mică E4B a trecut toate cele 14 teste de competență de bază—urmarea instrucțiunilor, codare, matematică, raționament multi-pas, traducere, securitate, caching—și a trecut toate cele 12 teste de context lung la 30K și 60K tokeni. La extragerea needle-in-haystack, a trecut 13 din 13 probe, inclusiv un test extins la un milion de tokeni cu scalare YaRN 8× RoPE.
Modelul 26B se extinde nativ la 131K context și până la 524K cu YaRN, pe care Hessling l-a testat și el sub presiune: "A strivit și testele mele simple needle-in-the-haystack până la un context extins de 524k!"
Pe hardware edge, E4B este cu adevărat rapid. Jackrong raportează 45–60 de tokeni pe secundă pe iPhone 17 Pro Max și 90–120 de tokeni pe secundă pe MacBook Air M3/M4 via MLX. Arhitectura 26B MoE înseamnă că se descarcă elegant pe sisteme de memorie unificată sau GPU-uri cu sub 10GB VRAM. Hessling l-a numit recomandarea sa zilnică pentru configurații sărace în VRAM.
Ambele modele sunt disponibile în format GGUF, ceea ce înseamnă că le poți introduce direct în LM Studio sau llama.cpp fără configurare. Codul complet de antrenament și un ghid pas cu pas de fine-tuning sunt pe GitHub-ul lui Jackrong—aceeași conductă pe care a folosit-o pentru Qwopus, aceeași configurație Unsloth și LoRA, reproductibilă pe Colab.
Gemopus nu este fără margini aspre. Apelarea instrumentelor rămâne defectă în întreaga serie Gemma 4 în llama.cpp și LM Studio—eșecuri de apel, nepotriviri de format, bucle—deci dacă fluxul tău de lucru depinde de agenți care folosesc instrumente externe, acesta nu este încă modelul tău. Jackrong însuși îl numește "o referință de explorare de inginerie mai degrabă decât o soluție complet pregătită pentru producție" și recomandă propria sa serie Qwopus 3.5 pentru oricine are nevoie de ceva mai stabil pentru sarcini reale.
Și pentru că Jackrong a evitat deliberat distilarea agresivă chain-of-thought în stil Claude, nu te aștepta să se simtă la fel de profund Opus-brained ca Qwopus—acesta a fost un compromis conștient pentru stabilitate, nu o neglijență.
Pentru cei care doresc să aprofundeze fine-tuning-ul Gemma pentru raționament în mod specific, există și un proiect comunitar separat care merită urmărit: Ornstein de către dezvoltatorul pseudonim DJLougen, care ia aceeași bază Gemma 4 26B și se concentrează specific pe îmbunătățirea lanțurilor sale de raționament fără a se baza pe logica sau stilul vreunui model terță parte specific.
O avertizare onestă: dinamica de antrenament a Gemma este mai dezordonată decât cea a Qwen pentru fine-tuner-i—fluctuații mai largi ale pierderii, mai multă sensibilitate la hiperparametri. Jackrong însuși spune asta. Dacă ai nevoie de un model local mai testat în luptă pentru fluxuri de lucru de producție, seria sa Qwopus 3.5 rămâne mai robust validată. Dar dacă vrei un model american cu finisaj în stil Opus, Gemopus este în prezent cea mai bună opțiune disponibilă. O variantă Gemopus 31B mai densă este, de asemenea, în pregătire, Hessling sugerând că va fi "cu siguranță o lovitură."
Dacă vrei să încerci să rulezi modele locale pe propriul hardware, consultă ghidul nostru despre cum să începi cu AI local.
Newsletter Daily Debrief
Începe fiecare zi cu cele mai importante știri de acum, plus caracteristici originale, un podcast, videoclipuri și multe altele.
Sursă: https://decrypt.co/364344/gemopus-gemma-4-claude-opus-style-local-ai





