BridgeMind AI mengklaim Claude Opus 4.6 dari Anthropic diam-diam mengalami penurunan kualitas setelah dilakukan retest pada benchmark halusinasi. Postingan viral ini kemudian menuai kritik tajam karena metodologinya dinilai cacat.
Klaim ini memicu perdebatan luas tentang apakah perusahaan AI diam-diam menurunkan kualitas model berbayar untuk mengurangi biaya.
BridgeMind, tim di balik benchmark coding BridgeBench, mengunggah bahwa Claude Opus 4.6 turun dari peringkat kedua ke peringkat sepuluh pada papan peringkat halusinasi mereka. Akurasi model ini dilaporkan turun dari 83,3% menjadi 68,3%.
Postingan itu menyoroti hal ini sebagai bukti adanya “penurunan level penalaran.” Akan tetapi, jika melihat data dasarnya lebih dekat, ceritanya justru berbeda.
Menurut ilmuwan komputer Paul Calcraft, klaim tersebut adalah “sains yang sangat buruk,” serta menyoroti masalah besar pada metodologinya.
Nilai tinggi sebelumnya berasal hanya dari enam tugas benchmark. Pada retest terbaru, jumlah tugas benchmark diperluas menjadi 30 tugas.
Pada enam tugas yang sama, performa model hampir sama, hanya turun tipis dari 87,6% menjadi 85,4%.
Perubahan kecil itu kebanyakan terjadi karena satu kali tambahan rekayasa pada satu tugas. Karena tidak ada pengujian ulang, hal ini masih sangat wajar dalam statistik sebagai variasi normal untuk model AI.
Large language model memang tidak deterministik, sehingga satu output buruk pada sampel kecil dapat mengubah hasil secara signifikan.
Meski begitu, postingan ini tetap mendapat perhatian besar. Sejak diluncurkan pada Februari 2026, Claude Opus 4.6 telah banyak dikeluhkan karena penurunan kualitas yang dirasakan.
Beberapa pengembang melaporkan jawaban yang lebih singkat, kemampuan mengikuti instruksi yang melemah, dan kedalaman penalaran berkurang pada jam-jam sibuk.
Bagian dari keluhan ini memang akibat perubahan produk yang disengaja. Anthropic memperkenalkan kontrol thinking adaptif agar model bisa otomatis menyesuaikan anggaran penalarannya sendiri. Tingkat upaya secara default kemudian diatur ke sedang, sehingga efisiensi lebih diutamakan daripada kedalaman maksimal.
Analisis independen terhadap lebih dari 6.800 sesi Claude Code menunjukkan penurunan kedalaman penalaran sekitar 67% pada akhir Februari.
Rasio file dibaca model sebelum mengedit kode juga turun dari 6,6 menjadi 2,0. Ini mengisyaratkan model mencoba memperbaiki kode yang bahkan nyaris belum ditelaah.
Situasi ini mencerminkan ketegangan yang terus tumbuh di industri AI. Perusahaan mengoptimalkan model agar hemat biaya dan scalable setelah peluncuran, sementara pengguna intensif berharap performa terbaik selalu konsisten. Perbedaan prioritas itu dapat mengikis kepercayaan.
Berdasarkan data yang ada, data BridgeBench tidak membuktikan adanya penurunan kualitas yang disengaja. Perbandingan benchmark-nya pun tidak sepadan, dan hasil pada tugas yang sama nyaris identik.
Walau demikian, kekecewaan yang melatari hal ini memang tidak sepenuhnya tanpa alasan. Kontrol komputasi adaptif dan optimasi layanan sudah mengubah bagaimana Claude Opus 4.6 bekerja di lapangan. Bagi pengembang yang bergantung pada output konsisten, perubahan ini sangat berpengaruh.
Anthropic belum mengeluarkan pernyataan publik mengenai klaim BridgeBench ini hingga 13 April.


