DeepSeek-R1 berhalusinasi sebesar 14,3% menurut Vectara, 4 kali lebih banyak dari V3. Data tersebut memberi sinyal risiko bagi token agen AI kripto.DeepSeek-R1 berhalusinasi sebesar 14,3% menurut Vectara, 4 kali lebih banyak dari V3. Data tersebut memberi sinyal risiko bagi token agen AI kripto.

DeepSeek-R1 Melakukan Hallucinasi 4x Lebih Banyak Dari V3, Memunculkan Sinyal Bahaya bagi Token Agen AI Kripto

2026/05/12 04:03
durasi baca 4 menit
Untuk memberikan masukan atau menyampaikan kekhawatiran terkait konten ini, silakan hubungi kami di [email protected]

DeepSeek-R1, model penalaran unggulan dari laboratorium Cina DeepSeek, menghasilkan halusinasi sebesar 14,3% menurut benchmark HHEM 2.1 dari Vectara. Angka ini hampir empat kali lebih tinggi dibandingkan pendahulunya yang bukan model penalaran, DeepSeek-V3, yang mendapatkan skor 3,9%.

Perbedaan ini menimbulkan pertanyaan besar untuk sektor aset kripto. Saat ini, kelas token AI agent yang berkembang pesat mengandalkan LLM dengan kemampuan penalaran untuk trading otomatis, sinyal, dan eksekusi di on-chain.

Data Vectara Tunjukkan R1 ‘Terlalu Membantu’ dengan Fakta Salah

Vectara menguji kedua model DeepSeek dengan HHEM 2.1, framework khusus untuk mengevaluasi halusinasi. Tim juga memverifikasi hasilnya menggunakan metodologi FACTS dari Google. Pada setiap konfigurasi tes, R1 menghasilkan lebih banyak pernyataan palsu atau tanpa dukungan dibandingkan V3.

Penyebabnya bukan hanya karena tingkat kedalaman penalaran. Analis Vectara menemukan bahwa R1 cenderung “terlalu membantu”. Model ini menambahkan informasi yang tidak ada pada teks sumber.

Detail tambahan tersebut kadang memang benar secara fakta, tapi tetap dianggap halusinasi. Perilaku ini menyisipkan konteks yang dibuat-buat ke dalam jawaban yang sebenarnya sudah tepat.

Vectara menyampaikan temuan ini secara langsung dalam posting publik di X.

Pola ini bukan hanya terjadi pada DeepSeek. Pengamat industri juga mencatat kompromi serupa pada model-model penalaran dari laboratorium lain. Reinforcement learning yang mempertajam chain-of-thought juga mendorong hasil generasi yang lebih percaya diri dan berani.

Mengapa Token AI Kripto Berada di Tengah Kompromi Ini

Pasar aset kripto kini memiliki ratusan token AI agent, dipimpin oleh Virtuals Protocol (VIRTUAL), ai16z (AI16Z), dan aixbt (AIXBT).

Kategori ini mencatat pertumbuhan sekitar 39,4% dalam 30 hari terakhir. Virtuals sendiri sudah melampaui nilai kapitalisasi pasar US$576 juta.

Performa Harga Virtuals Protocol (VIRTUAL)Performa Harga Virtuals Protocol (VIRTUAL) | Sumber: Coingecko

Kebanyakan dari agent ini membungkus large language model dengan alat bantu. Alat tersebut memungkinkan agent untuk posting di media sosial, melakukan trading, mencetak token, atau membuat komentar pasar.

Ketika model dasarnya membuat harga, kemitraan, atau alamat kontrak yang fiktif, dampaknya bisa langsung terasa di on-chain.

Sebuah analisis BeInCrypto terhadap AIXBT menunjukkan bahwa agent tersebut telah mempromosikan 416 token dengan rata-rata keuntungan 19%. Namun, mekanisme yang sama juga berisiko menghadirkan rekomendasi buruk jika modelnya gagal memberikan hasil akurat.

Skala risikonya meningkat seiring dengan tingkat otonomi. AI agent yang hanya merangkum sentimen punya tingkat risiko berbeda dibanding agent yang memegang kunci treasury.

Model penalaran sangat menarik untuk agent yang melakukan perencanaan beberapa langkah sekaligus. Kasus penggunaan seperti ini adalah yang paling terdampak oleh angka 14,3% milik Vectara.

Satu fakta halusinasi saja di awal chain-of-thought bisa terbawa ke setiap aksi berikutnya.

LeCun Paparkan Masalahnya Ada pada Arsitektur

Yann LeCun, kepala ilmuwan AI Meta, sudah lama berpendapat bahwa LLM autoregresif tidak bisa sepenuhnya terbebas dari halusinasi. Menurutnya, arsitekturnya sendiri memang tidak punya model dunia yang benar-benar terhubung dengan kenyataan.

Reinforcement learning pada chain-of-thought memang bisa menutupi permasalahan ini pada ranah sempit seperti matematika dan pemrograman. Tapi, akar penyebabnya tetap saja tidak terselesaikan.

Lembaga riset frontier lainnya punya pendapat berbeda. Mereka menyoroti kemajuan dalam menurunkan tingkat halusinasi lewat retrieval augmentation, penyempurnaan pasca-pelatihan, serta model verifikator. Namun, laporan dari pengembang sering kali sejalan dengan data pada leaderboard.

Peneliti AI xlr8harder, yang menulis di X tentang sesi debug dengan R1, merangkum pengalaman sehari-harinya.

Bagi pengembang crypto agent, pertanyaan praktisnya adalah manajemen risiko, bukan sekadar soal filosofi arsitektur. Desain AI agent yang menempatkan langkah verifikasi pada setiap klaim model akan lebih aman.

Hal serupa juga berlaku bagi agent yang mengandalkan model lebih kecil dan lebih konservatif untuk keputusan keuangan.

Leaderboard berikutnya dan generasi penerus R1 akan menjadi penentu apakah kompromi antara penalaran dan akurasi makin mengecil.

Saat ini, jurang antara 14,3% dan 3,9% adalah detail operasional yang perlu terus dipantau. Selisih ini bisa membedakan token AI agent yang benar-benar menghadirkan produk siap pakai dibanding yang hanya menjual janji.

Peluang Pasar
Logo Gensyn
Harga Gensyn(AI)
$0.03398
$0.03398$0.03398
-6.72%
USD
Grafik Harga Live Gensyn (AI)
Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.

Debut Global KAIO

Debut Global KAIODebut Global KAIO

Nikmati trading KAIO 0 biaya dan ikuti ledakan RWA