Grup Riset AI Tether telah merilis versi produksi open-source dari TurboQuant, sebuah algoritma kompresi memori yang awalnya dikembangkan oleh Google Research.
Rilis ini merupakan bagian dari QVAC SDK 0.12.0 dan menargetkan laptop, ponsel, perangkat edge, dan jaringan terdesentralisasi. Ini memungkinkan model AI lokal menangani sesi yang lebih lama tanpa bergantung pada infrastruktur cloud.
Ini menandai pergeseran praktis dalam cara AI pada perangkat mengelola tugas-tugas yang membutuhkan memori besar.
Memori telah lama menjadi hambatan dalam menjalankan model AI yang andal pada perangkat keras konsumen. Ketika asisten AI memproses dokumen panjang atau percakapan, ia menyimpan konteks tersebut dalam apa yang disebut KV cache.
Pada sekitar 262.000 token, KV cache untuk model 4B saja dapat mengonsumsi sekitar 8 GB memori. Empat sesi bersamaan dapat mendorong angka tersebut menjadi 32 GB sebelum memperhitungkan model itu sendiri.
TurboQuant mengatasi hal ini dengan mengompresi KV cache hingga lima kali lipat sambil mempertahankan kualitas output yang mendekati model yang tidak dikompres.
Pengguna kini dapat meminta asisten berbasis laptop untuk menganalisis dokumen hukum setebal seratus halaman tanpa mengunggahnya ke server jarak jauh.
Pelajar, pengembang, jurnalis, dan peneliti semuanya dapat memanfaatkan sesi AI yang lebih panjang dan lebih sadar konteks pada perangkat yang sudah mereka miliki.
Berbicara tentang alasan yang lebih luas di balik rilis ini, CEO Tether Paolo Ardoino menunjukkan kesenjangan antara penelitian dan perangkat lunak praktis.
"Penelitian Google menunjukkan bahwa memori AI dapat dikompres jauh lebih efisien dari yang diasumsikan kebanyakan orang," katanya. "Pekerjaan kami membawa terobosan itu ke dalam perangkat lunak produksi yang benar-benar dapat dibangun oleh para pengembang, startup, dan pengguna."
Rilis produksi ini mencakup pipeline kuantisasi lengkap, adaptor framework, dokumentasi pengembang, dan profil yang disesuaikan dengan beban kerja.
Komponen-komponen ini dirancang untuk lingkungan nyata di luar pusat data hyperscale, mencakup memori terbatas, perangkat keras campuran, dan penerapan yang sensitif terhadap latensi.
TurboQuant hadir sebagai bagian dari QVAC SDK 0.12.0, terintegrasi langsung ke dalam Fabric, komponen inti dari tumpukan QVAC.
Fabric dimulai sebagai fork llama.cpp dan sejak itu berkembang untuk menggabungkan berbagai kemajuan penelitian. SDK ini memberi para pengembang seperangkat alat, pustaka, dan komponen runtime yang terpadu untuk membangun aplikasi AI lokal.
Bagi startup dan pengembang independen, ini menghilangkan asumsi bahwa produk AI besar memerlukan kluster GPU yang mahal.
Tim kini dapat merancang untuk jendela konteks yang lebih panjang, beban kerja file yang lebih besar, dan penerapan fleksibel di perangkat keras konsumen dan edge. Hal ini membuka jalur praktis untuk membangun produk AI tanpa arsitektur berbasis cloud saja.
Menanggapi kekhawatiran seputar privasi data dan ketergantungan pada cloud, Ardoino berargumen untuk menjaga tugas AI tetap pada perangkat lokal.
"Orang-orang harus dapat meminta asisten AI untuk membaca dokumen panjang atau mengolah informasi pribadi tanpa setiap tugas dipaksa melewati pusat data jarak jauh," katanya. TurboQuant, dalam pengertian itu, memberi AI lokal lebih banyak ruang operasional.
Strategi Tether berpusat pada AI yang berjalan lebih dekat dengan pengguna, di seluruh perangkat pribadi dan jaringan terdesentralisasi. Perusahaan memandang efisiensi perangkat lunak dan portabilitas sebagai faktor penentu dalam fase pengembangan AI berikutnya, bersama infrastruktur komputasi skala besar.
The post Tether Brings Google's TurboQuant to Production, Unlocking Long-Context AI on Everyday Devices appeared first on Blockonomi.


