Singkatnya
- Muse Spark baru dari Meta menandai pergeseran ke AI tertutup, multimodal asli dengan penalaran berbasis agen.
- Meta melaporkan peningkatan benchmark yang kuat dalam kesehatan dan pencarian, tetapi masih tertinggal dari Gemini dalam penalaran inti dan coding.
- Dibangun dalam sembilan bulan dengan komputasi yang jauh lebih sedikit, ini menunjuk pada strategi AI berbasis efisiensi yang baru.
Meta meluncurkan Muse Spark pada hari Rabu, menandai model pertama yang dibangun oleh Meta Superintelligence Labs—tim yang dirakit sembilan bulan lalu di bawah Chief AI Officer Alexandr Wang setelah akuisisi Scale AI senilai $14 miliar oleh Meta. Kini sudah aktif di meta.ai dan aplikasi Meta AI, dengan peluncuran ke Facebook, Instagram, dan WhatsApp yang akan datang dalam beberapa minggu ke depan.
Ini bukan sekadar peningkatan chatbot atau versi baru Llama. Muse Spark adalah multimodal asli—ia memproses gambar, teks, dan suara dari awal, bukan menambahkan visi ke model teks yang sudah ada. Ini dilengkapi dengan visual chain-of-thought, dukungan penggunaan alat, dan sesuatu yang Meta sebut "mode Contemplating": pengaturan yang menjalankan beberapa agen AI secara paralel untuk menangani masalah yang lebih sulit. Itu adalah jawaban Meta untuk mode berpikir diperpanjang dari Gemini Deep Think Google dan GPT Pro OpenAI.
"Muse Spark adalah langkah pertama dalam tangga penskalaan kami dan produk pertama dari pembaruan menyeluruh upaya AI kami," tulis Meta dalam pengumuman resmi. "Untuk mendukung penskalaan lebih lanjut, kami melakukan investasi strategis di seluruh stack—dari penelitian dan pelatihan model hingga infrastruktur, termasuk pusat data Hyperion."
Perusahaan bekerja dengan lebih dari 1.000 dokter untuk menyusun data pelatihan bagi penalaran medis Muse Spark. Hasil pada HealthBench Hard—benchmark pertanyaan kesehatan terbuka—sangat mencolok: Muse Spark mencetak skor 42,8, dibandingkan dengan 40,1 untuk GPT 5.4 dan hanya 20,6 untuk Gemini 3.1 Pro. Itu bukan perbedaan yang marjinal.
Pada pencarian agentic (DeepSearchQA), Muse Spark juga memimpin dengan 74,8, mengalahkan Gemini (69,7) dan GPT 5.4 (73,6). Pada CharXiv Reasoning—pemahaman gambar dari makalah ilmiah—ia mencetak skor 86,4, tertinggi di antara model dalam perbandingan.
Bagi mereka yang suka jailbreaking AI, model ini berhasil dibuka dalam beberapa menit:
Tetapi baik tidak sama dengan hebat. Gambaran benchmark keseluruhan menunjukkan Gemini 3.1 Pro masih unggul di sebagian besar kategori. Kesenjangan paling terlihat pada ARC AGI 2, benchmark teka-teki penalaran abstrak: Gemini mencetak skor 76,5 dibandingkan 42,5 milik Muse Spark.
Pada coding (LiveCodeBench Pro), 82,9 Gemini mengungguli 80,0 Meta. Pada MMMU Pro—pemahaman multimodal—Gemini mencetak skor 83,9 versus 80,4. Blog Meta sendiri mengakui kesenjangan kinerja saat ini dalam sistem agentic jangka panjang dan alur kerja coding.
Ada juga pergeseran strategis yang mencolok dalam peluncuran ini. Muse Spark adalah model tertutup—arsitektur dan bobotnya tidak akan dipublikasikan. Itu adalah perubahan tajam dari Llama, yang membangun reputasi Meta di kalangan AI terbuka. Setelah penerimaan Llama 4 yang kurang memuaskan awal tahun ini, Meta tampaknya telah memutuskan bab berikutnya perlu ditulis secara berbeda.
Perusahaan mengatakan berharap untuk membuka sumber versi Muse di masa depan, tetapi untuk saat ini kode tetap di dalam Meta. Saham raksasa teknologi ini naik hampir 9% pada hari Rabu setelah pengumuman, dan mengakhiri hari perdagangan naik 6,5% ke harga $612,42.
"Mode contemplating" menggunakan orkestrasi agen paralel untuk mendorong batas model lebih tinggi. Dalam konfigurasi itu, Muse Spark mencapai 58% pada Humanity's Last Exam dan 38% pada FrontierScience Research—wilayah yang membuatnya kompetitif dengan versi Gemini dan GPT yang paling mampu, bukan rilis standar mereka.
Meta juga meluncurkan asisten belanja yang membandingkan produk dan menghubungkan langsung ke pembelian, dan berencana membawa Muse Spark ke Facebook, Instagram, dan WhatsApp dalam beberapa minggu mendatang—mengikuti skrip yang sama yang diterapkan sejak Llama 3, menempatkannya di hadapan lebih dari 3,5 miliar pengguna. Pratinjau API pribadi dibuka untuk pengembang tertentu.
Model ini dibangun dalam sembilan bulan, dengan nama kode internal Avocado, dengan Meta mengklaim bahwa stack pretraining barunya dapat mencapai tingkat kemampuan yang sama dengan Llama 4 Maverick menggunakan lebih dari 10 kali lebih sedikit komputasi.
Muse Spark digambarkan secara internal sebagai langkah pertama "kecil dan cepat" dalam keluarga Muse. Versi yang lebih mampu sudah dalam pengembangan.
Newsletter Daily Debrief
Mulai setiap hari dengan berita utama sekarang, ditambah fitur orisinal, podcast, video, dan banyak lagi.
Sumber: https://decrypt.co/363691/meta-muse-spark-most-capable-ai-gemini-pro-still-leads







