Jeśli śledzisz lokalną scenę AI, prawdopodobnie znasz Qwopus—model open-source, który próbował zdestylować rozumowanie Claude Opus 4.6 do Qwen firmy Alibaba, dzięki czemu mogłeś uruchomić coś przypominającego Opus na własnym sprzęcie za darmo. Działało to zaskakująco dobrze. Oczywisty haczyk: Qwen to chiński model i nie każdy czuje się z tym komfortowo.
Jackrong, ten sam pseudonimowy deweloper stojący za tym projektem, wysłuchał opinii. Jego odpowiedzią jest Gemopus—nowa rodzina dostrojonych modeli w stylu Claude Opus, zbudowana w całości na open-source'owym Gemma 4 Google'a. Całkowicie amerykańskie DNA, ten sam pomysł: rozumowanie na poziomie granicznym, działające lokalnie na sprzęcie, który już posiadasz.
Rodzina występuje w dwóch wariantach. Gemopus-4-26B-A4B to cięższa opcja—model Mixture of Experts, który ma łącznie 26 miliardów parametrów, ale aktywuje tylko około 4 miliardy podczas wnioskowania, co oznacza, że działa znacznie powyżej swojej wagi na ograniczonym sprzęcie.
Parametry określają zdolność AI do uczenia się, rozumowania i przechowywania informacji. Posiadanie łącznie 26 miliardów parametrów daje modelowi ogromną szerokość wiedzy. Ale poprzez „budzenie" tylko 4 miliardów parametrów istotnych dla Twojego konkretnego zapytania, dostarcza wysokiej jakości wyniki masywnego AI, pozostając jednocześnie wystarczająco lekkim, aby płynnie działać na codziennym sprzęcie.
Drugim jest Gemopus-4-E4B, model brzegowy z 4 miliardami parametrów, zaprojektowany do wygodnego działania na nowoczesnym iPhone lub cienkimi i lekkim MacBooku—bez wymagania GPU.
Wybór modelu bazowego ma tu znaczenie. Gemma 4 Google'a, wydana 2 kwietnia, została zbudowana bezpośrednio z tych samych badań i technologii co Gemini 3—firma wyraźnie to powiedziała przy premierze. To oznacza, że Gemopus niesie coś, czego żadne dostrojenie oparte na Qwen nie może twierdzić: DNA własnego najnowocześniejszego zamkniętego modelu Google'a pod spodem, owiniętego stylem myślenia Anthropic na wierzchu. Najlepsze z obu światów, mniej więcej.
To, co odróżnia Gemopus od fali innych dostrojonych Gemma zalewających teraz Hugging Face, to filozofia, która za nim stoi. Jackrong celowo zdecydował się nie zmuszać śladów rozumowania łańcuchowego Claude do wag Gemmy—skrót, z którego korzysta większość konkurencyjnych wydań.
Jego argument, poparty najnowszymi badaniami, brzmi, że wypełnianie modelu ucznia powierzchownym tekstem rozumowania nauczyciela nie przenosi rzeczywistej zdolności rozumowania. Uczy naśladownictwa, a nie logiki. „Nie ma potrzeby nadmiernej wyobraźni ani przesądnego replikowania łańcucha myślowego w stylu Claude", czytamy w karcie modelu. Zamiast tego skupił się na jakości odpowiedzi, przejrzystości strukturalnej i naturalności konwersacyjnej—naprawiając sztywny ton Wikipedii Gemmy i jej tendencję do wykładania o rzeczach, o które nie pytałeś.
Inżynier infrastruktury AI Kyle Hessling przeprowadził niezależne testy porównawcze i opublikował wyniki bezpośrednio na karcie modelu. Jego werdykt dotyczący wariantu 26B był dość przychylny. „Cieszę się, że przetestowałem to dość mocno i to doskonałe dostrojenie już wyjątkowego modelu", napisał na X. „Radzi sobie świetnie z jednorazowymi żądaniami w długich kontekstach i działa niesamowicie szybko dzięki architekturze MOE (mixture of experts)".
Mniejszy wariant E4B przeszedł wszystkie 14 podstawowych testów kompetencji—podążanie za instrukcjami, kodowanie, matematyka, rozumowanie wieloetapowe, tłumaczenie, bezpieczeństwo, buforowanie—i zdał wszystkie 12 testów długiego kontekstu przy 30K i 60K tokenach. W wyszukiwaniu igły w stogu siana przeszedł 13 z 13 prób, w tym test rozszerzony do jednego miliona tokenów ze skalowaniem YaRN 8× RoPE.
26B rozciąga się natywnie do kontekstu 131K i aż do 524K z YaRN, co Hessling również przetestował pod obciążeniem: „Zmiażdżył również moje proste testy igły w stogu siana aż do rozszerzonego kontekstu 524k!"
Na sprzęcie brzegowym E4B jest naprawdę szybki. Jackrong raportuje 45–60 tokenów na sekundę na iPhone 17 Pro Max i 90–120 tokenów na sekundę na MacBook Air M3/M4 przez MLX. Architektura 26B MoE oznacza, że płynnie rozładowuje się na systemach pamięci zunifikowanej lub GPU z poniżej 10GB VRAM. Hessling nazwał go swoją codzienną rekomendacją dla konfiguracji pozbawionych VRAM.
Oba modele są dostępne w formacie GGUF, co oznacza, że możesz je wrzucić bezpośrednio do LM Studio lub llama.cpp bez konfiguracji. Pełny kod treningowy i przewodnik krok po kroku po dostrajaniu znajdują się na GitHubie Jackronga—ten sam pipeline, którego użył dla Qwopus, ta sama konfiguracja Unsloth i LoRA, reprodukowalna na Colab.
Gemopus nie jest bez swoich niedoskonałości. Wywoływanie narzędzi pozostaje uszkodzone w całej serii Gemma 4 w llama.cpp i LM Studio—błędy wywołań, niezgodności formatu, pętle—więc jeśli Twój przepływ pracy zależy od agentów korzystających z zewnętrznych narzędzi, to nie jest jeszcze Twój model. Sam Jackrong nazywa go „referencją eksploracji inżynieryjnej, a nie w pełni gotowym do produkcji rozwiązaniem" i poleca swoją serię Qwopus 3.5 każdemu, kto potrzebuje czegoś bardziej stabilnego do rzeczywistych obciążeń.
A ponieważ Jackrong celowo unikał agresywnej destylacji łańcucha myślowego w stylu Claude, nie oczekuj, że będzie to tak głęboko „Opus-owe" jak Qwopus—to był świadomy kompromis dla stabilności, a nie przeoczenie.
Dla tych, którzy chcą zagłębić się w dostrajanie Gemmy specyficznie dla rozumowania, istnieje również oddzielny projekt społecznościowy wart obserwowania: Ornstein pseudonimowego dewelopera DJLougena, który wykorzystuje tę samą bazę 26B Gemma 4 i koncentruje się specyficznie na poprawie jej łańcuchów rozumowania bez polegania na logice lub stylu jakiegokolwiek konkretnego modelu strony trzeciej.
Jedno szczere zastrzeżenie: dynamika treningu Gemmy jest bardziej chaotyczna niż Qwen dla dostrajających—szersze fluktuacje strat, większa wrażliwość hiperparametrów. Sam Jackrong tak mówi. Jeśli potrzebujesz bardziej sprawdzonego modelu lokalnego do przepływów pracy produkcyjnej, jego seria Qwopus 3.5 pozostaje bardziej solidnie zwalidowana. Ale jeśli chcesz amerykańskiego modelu z dopracowaniem w stylu Opus, Gemopus jest obecnie najlepszą dostępną opcją. Gęstszy wariant 31B Gemopus jest również w przygotowaniu, a Hessling zapowiada go jako „na pewno bombę".
Jeśli chcesz spróbować uruchomić lokalne modele na własnym sprzęcie, sprawdź nasz przewodnik, jak zacząć z lokalnym AI.
Newsletter Daily Debrief
Zacznij każdy dzień od najważniejszych wiadomości w tej chwili, plus oryginalne funkcje, podcast, filmy i więcej.
Źródło: https://decrypt.co/364344/gemopus-gemma-4-claude-opus-style-local-ai






