DeepSeek-R1, model penalaran unggulan dari laboratorium Cina DeepSeek, menghasilkan halusinasi sebesar 14,3% menurut benchmark HHEM 2.1 dari Vectara. Angka ini hampir empat kali lebih tinggi dibandingkan pendahulunya yang bukan model penalaran, DeepSeek-V3, yang mendapatkan skor 3,9%.
Perbedaan ini menimbulkan pertanyaan besar untuk sektor aset kripto. Saat ini, kelas token AI agent yang berkembang pesat mengandalkan LLM dengan kemampuan penalaran untuk trading otomatis, sinyal, dan eksekusi di on-chain.
Vectara menguji kedua model DeepSeek dengan HHEM 2.1, framework khusus untuk mengevaluasi halusinasi. Tim juga memverifikasi hasilnya menggunakan metodologi FACTS dari Google. Pada setiap konfigurasi tes, R1 menghasilkan lebih banyak pernyataan palsu atau tanpa dukungan dibandingkan V3.
Penyebabnya bukan hanya karena tingkat kedalaman penalaran. Analis Vectara menemukan bahwa R1 cenderung “terlalu membantu”. Model ini menambahkan informasi yang tidak ada pada teks sumber.
Detail tambahan tersebut kadang memang benar secara fakta, tapi tetap dianggap halusinasi. Perilaku ini menyisipkan konteks yang dibuat-buat ke dalam jawaban yang sebenarnya sudah tepat.
Vectara menyampaikan temuan ini secara langsung dalam posting publik di X.
Pola ini bukan hanya terjadi pada DeepSeek. Pengamat industri juga mencatat kompromi serupa pada model-model penalaran dari laboratorium lain. Reinforcement learning yang mempertajam chain-of-thought juga mendorong hasil generasi yang lebih percaya diri dan berani.
Pasar aset kripto kini memiliki ratusan token AI agent, dipimpin oleh Virtuals Protocol (VIRTUAL), ai16z (AI16Z), dan aixbt (AIXBT).
Kategori ini mencatat pertumbuhan sekitar 39,4% dalam 30 hari terakhir. Virtuals sendiri sudah melampaui nilai kapitalisasi pasar US$576 juta.
Kebanyakan dari agent ini membungkus large language model dengan alat bantu. Alat tersebut memungkinkan agent untuk posting di media sosial, melakukan trading, mencetak token, atau membuat komentar pasar.
Ketika model dasarnya membuat harga, kemitraan, atau alamat kontrak yang fiktif, dampaknya bisa langsung terasa di on-chain.
Sebuah analisis BeInCrypto terhadap AIXBT menunjukkan bahwa agent tersebut telah mempromosikan 416 token dengan rata-rata keuntungan 19%. Namun, mekanisme yang sama juga berisiko menghadirkan rekomendasi buruk jika modelnya gagal memberikan hasil akurat.
Skala risikonya meningkat seiring dengan tingkat otonomi. AI agent yang hanya merangkum sentimen punya tingkat risiko berbeda dibanding agent yang memegang kunci treasury.
Model penalaran sangat menarik untuk agent yang melakukan perencanaan beberapa langkah sekaligus. Kasus penggunaan seperti ini adalah yang paling terdampak oleh angka 14,3% milik Vectara.
Satu fakta halusinasi saja di awal chain-of-thought bisa terbawa ke setiap aksi berikutnya.
Yann LeCun, kepala ilmuwan AI Meta, sudah lama berpendapat bahwa LLM autoregresif tidak bisa sepenuhnya terbebas dari halusinasi. Menurutnya, arsitekturnya sendiri memang tidak punya model dunia yang benar-benar terhubung dengan kenyataan.
Reinforcement learning pada chain-of-thought memang bisa menutupi permasalahan ini pada ranah sempit seperti matematika dan pemrograman. Tapi, akar penyebabnya tetap saja tidak terselesaikan.
Lembaga riset frontier lainnya punya pendapat berbeda. Mereka menyoroti kemajuan dalam menurunkan tingkat halusinasi lewat retrieval augmentation, penyempurnaan pasca-pelatihan, serta model verifikator. Namun, laporan dari pengembang sering kali sejalan dengan data pada leaderboard.
Peneliti AI xlr8harder, yang menulis di X tentang sesi debug dengan R1, merangkum pengalaman sehari-harinya.
Bagi pengembang crypto agent, pertanyaan praktisnya adalah manajemen risiko, bukan sekadar soal filosofi arsitektur. Desain AI agent yang menempatkan langkah verifikasi pada setiap klaim model akan lebih aman.
Hal serupa juga berlaku bagi agent yang mengandalkan model lebih kecil dan lebih konservatif untuk keputusan keuangan.
Leaderboard berikutnya dan generasi penerus R1 akan menjadi penentu apakah kompromi antara penalaran dan akurasi makin mengecil.
Saat ini, jurang antara 14,3% dan 3,9% adalah detail operasional yang perlu terus dipantau. Selisih ini bisa membedakan token AI agent yang benar-benar menghadirkan produk siap pakai dibanding yang hanya menjual janji.

