Beli Kripto Pasar Spot Futures OILDELL Tabungan Pusat Acara

Lainnya

TurboQuant mengompresi memori KV cache AI hingga lima kali lipat dengan dampak minimal pada kualitas model. Peningkatan ini memungkinkan laptop dan ponsel menjalankan AI lebih lamaTurboQuant mengompresi memori KV cache AI hingga lima kali lipat dengan dampak minimal pada kualitas model. Peningkatan ini memungkinkan laptop dan ponsel menjalankan AI lebih lama

Tether Membawa TurboQuant Google ke Produksi, Membuka AI Konteks Panjang di Perangkat Sehari-hari

Sumber: Blockonomi

2026/06/02 07:46

durasi baca 3 menit

AI$0.0324+7.67%

LONG$0.0007351-0.39%

Untuk memberikan masukan atau menyampaikan kekhawatiran terkait konten ini, silakan hubungi kami di [email protected]

TLDR:

TurboQuant mengompresi memori KV cache AI hingga lima kali lipat dengan dampak minimal pada kualitas model.
Peningkatan ini memungkinkan laptop dan ponsel menjalankan sesi AI yang lebih lama tanpa bergantung pada cloud.
QVAC SDK 0.12.0 mengintegrasikan TurboQuant ke dalam Fabric, memperluas opsi pengembangan AI lokal.
Tether bertujuan memajukan AI yang berfokus pada privasi dengan membawa inferensi yang efisien lebih dekat ke pengguna akhir.

Grup Riset AI Tether telah merilis versi produksi open-source dari TurboQuant, sebuah algoritma kompresi memori yang awalnya dikembangkan oleh Google Research.

Rilis ini merupakan bagian dari QVAC SDK 0.12.0 dan menargetkan laptop, ponsel, perangkat edge, dan jaringan terdesentralisasi. Ini memungkinkan model AI lokal menangani sesi yang lebih lama tanpa bergantung pada infrastruktur cloud.

Ini menandai pergeseran praktis dalam cara AI pada perangkat mengelola tugas-tugas yang membutuhkan memori besar.

TurboQuant Mengompresi Memori AI Hingga Lima Kali Lipat

Memori telah lama menjadi hambatan dalam menjalankan model AI yang andal pada perangkat keras konsumen. Ketika asisten AI memproses dokumen panjang atau percakapan, ia menyimpan konteks tersebut dalam apa yang disebut KV cache.

Pada sekitar 262.000 token, KV cache untuk model 4B saja dapat mengonsumsi sekitar 8 GB memori. Empat sesi bersamaan dapat mendorong angka tersebut menjadi 32 GB sebelum memperhitungkan model itu sendiri.

TurboQuant mengatasi hal ini dengan mengompresi KV cache hingga lima kali lipat sambil mempertahankan kualitas output yang mendekati model yang tidak dikompres.

Pengguna kini dapat meminta asisten berbasis laptop untuk menganalisis dokumen hukum setebal seratus halaman tanpa mengunggahnya ke server jarak jauh.

Pelajar, pengembang, jurnalis, dan peneliti semuanya dapat memanfaatkan sesi AI yang lebih panjang dan lebih sadar konteks pada perangkat yang sudah mereka miliki.

Berbicara tentang alasan yang lebih luas di balik rilis ini, CEO Tether Paolo Ardoino menunjukkan kesenjangan antara penelitian dan perangkat lunak praktis.

"Penelitian Google menunjukkan bahwa memori AI dapat dikompres jauh lebih efisien dari yang diasumsikan kebanyakan orang," katanya. "Pekerjaan kami membawa terobosan itu ke dalam perangkat lunak produksi yang benar-benar dapat dibangun oleh para pengembang, startup, dan pengguna."

Rilis produksi ini mencakup pipeline kuantisasi lengkap, adaptor framework, dokumentasi pengembang, dan profil yang disesuaikan dengan beban kerja.

Komponen-komponen ini dirancang untuk lingkungan nyata di luar pusat data hyperscale, mencakup memori terbatas, perangkat keras campuran, dan penerapan yang sensitif terhadap latensi.

QVAC SDK 0.12.0 Memperluas Opsi Pengembangan AI Lokal

TurboQuant hadir sebagai bagian dari QVAC SDK 0.12.0, terintegrasi langsung ke dalam Fabric, komponen inti dari tumpukan QVAC.

Fabric dimulai sebagai fork llama.cpp dan sejak itu berkembang untuk menggabungkan berbagai kemajuan penelitian. SDK ini memberi para pengembang seperangkat alat, pustaka, dan komponen runtime yang terpadu untuk membangun aplikasi AI lokal.

Bagi startup dan pengembang independen, ini menghilangkan asumsi bahwa produk AI besar memerlukan kluster GPU yang mahal.

Tim kini dapat merancang untuk jendela konteks yang lebih panjang, beban kerja file yang lebih besar, dan penerapan fleksibel di perangkat keras konsumen dan edge. Hal ini membuka jalur praktis untuk membangun produk AI tanpa arsitektur berbasis cloud saja.

Menanggapi kekhawatiran seputar privasi data dan ketergantungan pada cloud, Ardoino berargumen untuk menjaga tugas AI tetap pada perangkat lokal.

"Orang-orang harus dapat meminta asisten AI untuk membaca dokumen panjang atau mengolah informasi pribadi tanpa setiap tugas dipaksa melewati pusat data jarak jauh," katanya. TurboQuant, dalam pengertian itu, memberi AI lokal lebih banyak ruang operasional.

Strategi Tether berpusat pada AI yang berjalan lebih dekat dengan pengguna, di seluruh perangkat pribadi dan jaringan terdesentralisasi. Perusahaan memandang efisiensi perangkat lunak dan portabilitas sebagai faktor penentu dalam fase pengembangan AI berikutnya, bersama infrastruktur komputasi skala besar.

The post Tether Brings Google's TurboQuant to Production, Unlocking Long-Context AI on Everyday Devices appeared first on Blockonomi.

Peluang Pasar

Harga Gensyn(AI)

$0.0324

$0.0324$0.0324

+0.77%

USD

Grafik Harga Live Gensyn (AI)

Launchpad SPACEX(PRE)

Daftar untuk kesempatan undian gratis

Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.