Sebuah postingan BridgeBench yang viral mengklaim Claude Opus 4.6 telah di-nerf. Kritikus mengatakan perbandingan data tersebut cacat dan menyesatkan.Sebuah postingan BridgeBench yang viral mengklaim Claude Opus 4.6 telah di-nerf. Kritikus mengatakan perbandingan data tersebut cacat dan menyesatkan.

Viral BridgeBench Post Klaim Claude Opus 4.6 Telah ‘Nerf,’ Kritikus Sebut Ini Ilmu Buruk

Sumber: Beincrypto ID

2026/04/13 21:13

durasi baca 3 menit

4$0.013064-7.96%

INI$0.10181-0.32%

Untuk memberikan masukan atau menyampaikan kekhawatiran terkait konten ini, silakan hubungi kami di [email protected]

BridgeMind AI mengklaim Claude Opus 4.6 dari Anthropic diam-diam mengalami penurunan kualitas setelah dilakukan retest pada benchmark halusinasi. Postingan viral ini kemudian menuai kritik tajam karena metodologinya dinilai cacat.

Klaim ini memicu perdebatan luas tentang apakah perusahaan AI diam-diam menurunkan kualitas model berbayar untuk mengurangi biaya.

BridgeMind Klaim Terjadi Lonjakan Halusinasi 98%

BridgeMind, tim di balik benchmark coding BridgeBench, mengunggah bahwa Claude Opus 4.6 turun dari peringkat kedua ke peringkat sepuluh pada papan peringkat halusinasi mereka. Akurasi model ini dilaporkan turun dari 83,3% menjadi 68,3%.

Postingan itu menyoroti hal ini sebagai bukti adanya “penurunan level penalaran.” Akan tetapi, jika melihat data dasarnya lebih dekat, ceritanya justru berbeda.

Kritikus Sebut Perbandingan Sangat Cacat

Menurut ilmuwan komputer Paul Calcraft, klaim tersebut adalah “sains yang sangat buruk,” serta menyoroti masalah besar pada metodologinya.

Nilai tinggi sebelumnya berasal hanya dari enam tugas benchmark. Pada retest terbaru, jumlah tugas benchmark diperluas menjadi 30 tugas.

Pada enam tugas yang sama, performa model hampir sama, hanya turun tipis dari 87,6% menjadi 85,4%.

Perubahan kecil itu kebanyakan terjadi karena satu kali tambahan rekayasa pada satu tugas. Karena tidak ada pengujian ulang, hal ini masih sangat wajar dalam statistik sebagai variasi normal untuk model AI.

Large language model memang tidak deterministik, sehingga satu output buruk pada sampel kecil dapat mengubah hasil secara signifikan.

Kekecewaan Lebih Luas Menyulut Narasi Ini

Meski begitu, postingan ini tetap mendapat perhatian besar. Sejak diluncurkan pada Februari 2026, Claude Opus 4.6 telah banyak dikeluhkan karena penurunan kualitas yang dirasakan.

Beberapa pengembang melaporkan jawaban yang lebih singkat, kemampuan mengikuti instruksi yang melemah, dan kedalaman penalaran berkurang pada jam-jam sibuk.

Bagian dari keluhan ini memang akibat perubahan produk yang disengaja. Anthropic memperkenalkan kontrol thinking adaptif agar model bisa otomatis menyesuaikan anggaran penalarannya sendiri. Tingkat upaya secara default kemudian diatur ke sedang, sehingga efisiensi lebih diutamakan daripada kedalaman maksimal.

Analisis independen terhadap lebih dari 6.800 sesi Claude Code menunjukkan penurunan kedalaman penalaran sekitar 67% pada akhir Februari.

Rasio file dibaca model sebelum mengedit kode juga turun dari 6,6 menjadi 2,0. Ini mengisyaratkan model mencoba memperbaiki kode yang bahkan nyaris belum ditelaah.

Apa Implikasinya Bagi Pengguna AI

Situasi ini mencerminkan ketegangan yang terus tumbuh di industri AI. Perusahaan mengoptimalkan model agar hemat biaya dan scalable setelah peluncuran, sementara pengguna intensif berharap performa terbaik selalu konsisten. Perbedaan prioritas itu dapat mengikis kepercayaan.

Berdasarkan data yang ada, data BridgeBench tidak membuktikan adanya penurunan kualitas yang disengaja. Perbandingan benchmark-nya pun tidak sepadan, dan hasil pada tugas yang sama nyaris identik.

Walau demikian, kekecewaan yang melatari hal ini memang tidak sepenuhnya tanpa alasan. Kontrol komputasi adaptif dan optimasi layanan sudah mengubah bagaimana Claude Opus 4.6 bekerja di lapangan. Bagi pengembang yang bergantung pada output konsisten, perubahan ini sangat berpengaruh.

Anthropic belum mengeluarkan pernyataan publik mengenai klaim BridgeBench ini hingga 13 April.

Peluang Pasar

Harga 4(4)

$0.013064

$0.013064$0.013064

+0.03%

USD

Grafik Harga Live 4 (4)

Get 20 USDT in Just 1 Minute

Deposit $100 to unlock $300 in GOLD positions

Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.