TLDR: TurboQuant nén bộ nhớ KV cache AI lên đến năm lần với tác động tối thiểu đến chất lượng mô hình. Nâng cấp này cho phép laptop và điện thoại chạy AI lâu hơnTLDR: TurboQuant nén bộ nhớ KV cache AI lên đến năm lần với tác động tối thiểu đến chất lượng mô hình. Nâng cấp này cho phép laptop và điện thoại chạy AI lâu hơn

Tether Đưa TurboQuant Của Google Vào Sản Xuất, Mở Khóa AI Ngữ Cảnh Dài Trên Các Thiết Bị Thông Thường

2026/06/02 07:46
Đọc trong 5 phút
Đối với phản hồi hoặc thắc mắc liên quan đến nội dung này, vui lòng liên hệ với chúng tôi qua [email protected]

TLDR:

  • TurboQuant nén bộ nhớ KV cache AI lên đến năm lần với tác động tối thiểu đến chất lượng mô hình.
  • Bản nâng cấp cho phép laptop và điện thoại chạy các phiên AI dài hơn mà không phụ thuộc vào đám mây.
  • QVAC SDK 0.12.0 tích hợp TurboQuant vào Fabric, mở rộng các tùy chọn phát triển AI cục bộ.
  • Tether hướng đến việc thúc đẩy AI tập trung vào quyền riêng tư bằng cách đưa suy luận hiệu quả đến gần hơn với người dùng cuối.

Nhóm Nghiên cứu AI của Tether đã phát hành phiên bản sản xuất mã nguồn mở của TurboQuant, một thuật toán nén bộ nhớ ban đầu được phát triển bởi Google Research.

Bản phát hành là một phần của QVAC SDK 0.12.0 và nhắm mục tiêu đến laptop, điện thoại, thiết bị edge và các mạng phi tập trung. Nó cho phép các mô hình AI cục bộ xử lý các phiên dài hơn mà không cần dựa vào cơ sở hạ tầng đám mây.

Đây đánh dấu một sự thay đổi thực tiễn trong cách AI trên thiết bị quản lý các tác vụ tốn nhiều bộ nhớ.

TurboQuant nén bộ nhớ AI lên đến năm lần

Bộ nhớ từ lâu đã là rào cản để chạy các mô hình AI mạnh mẽ trên phần cứng tiêu dùng. Khi một trợ lý AI xử lý một tài liệu hoặc cuộc trò chuyện dài, nó lưu trữ ngữ cảnh đó trong cái gọi là KV cache.

Ở khoảng 262,000 token, KV cache cho mô hình 4B có thể tiêu thụ khoảng 8 GB bộ nhớ. Bốn phiên đồng thời có thể đẩy con số đó lên 32 GB trước khi tính đến bản thân mô hình.

TurboQuant giải quyết vấn đề này bằng cách nén KV cache lên đến năm lần trong khi vẫn duy trì chất lượng đầu ra gần với mô hình chưa nén.

Người dùng hiện có thể yêu cầu trợ lý trên laptop phân tích một tài liệu pháp lý dài hàng trăm trang mà không cần tải lên máy chủ từ xa.

Sinh viên, nhà phát triển, nhà báo và các nhà nghiên cứu đều có thể hưởng lợi từ các phiên AI dài hơn, nhận thức ngữ cảnh tốt hơn trên các thiết bị họ đã sở hữu.

Chia sẻ về lý do rộng hơn đằng sau bản phát hành, CEO Tether Paolo Ardoino chỉ ra khoảng cách giữa nghiên cứu và phần mềm thực tiễn.

"Nghiên cứu của Google cho thấy bộ nhớ AI có thể được nén hiệu quả hơn nhiều so với những gì hầu hết mọi người giả định," ông nói. "Công việc của chúng tôi đưa đột phá đó vào phần mềm sản xuất mà các nhà phát triển, startup và người dùng thực sự có thể xây dựng với nó."

Bản phát hành sản xuất bao gồm một pipeline lượng tử hóa đầy đủ, các bộ điều hợp framework, tài liệu dành cho nhà phát triển và các hồ sơ được điều chỉnh theo khối lượng công việc.

Các thành phần này được thiết kế cho môi trường thực tế bên ngoài các trung tâm dữ liệu siêu quy mô, bao gồm bộ nhớ bị hạn chế, phần cứng hỗn hợp và các triển khai nhạy cảm về độ trễ.

QVAC SDK 0.12.0 mở rộng các tùy chọn phát triển AI cục bộ

TurboQuant được tích hợp như một phần của QVAC SDK 0.12.0, tích hợp trực tiếp vào Fabric, một thành phần cốt lõi của stack QVAC.

Fabric bắt đầu như một nhánh fork của llama.cpp và đã phát triển để kết hợp nhiều tiến bộ nghiên cứu. SDK cung cấp cho các nhà phát triển một bộ công cụ, thư viện và các thành phần runtime thống nhất để xây dựng các ứng dụng AI cục bộ.

Đối với các startup và nhà phát triển độc lập, điều này loại bỏ giả định rằng các sản phẩm AI lớn đòi hỏi các cụm GPU đắt tiền.

Các nhóm hiện có thể thiết kế cho các cửa sổ ngữ cảnh dài hơn, khối lượng công việc tệp lớn hơn và triển khai linh hoạt trên phần cứng tiêu dùng và edge. Điều đó mở ra các con đường thực tế để xây dựng các sản phẩm AI mà không cần kiến trúc chỉ dựa vào đám mây.

Giải quyết các mối lo ngại xung quanh quyền riêng tư dữ liệu và sự phụ thuộc vào đám mây, Ardoino đã đưa ra lập luận để giữ các tác vụ AI trên các thiết bị cục bộ.

"Mọi người phải có khả năng yêu cầu trợ lý AI đọc một tài liệu dài hoặc xử lý thông tin riêng tư mà không cần mọi tác vụ đều bị buộc phải đi qua một trung tâm dữ liệu từ xa," ông nói. TurboQuant, theo nghĩa đó, mang lại cho AI cục bộ nhiều không gian hoạt động hơn.

Chiến lược của Tether tập trung vào AI chạy gần hơn với người dùng, trên các thiết bị cá nhân và mạng phi tập trung. Công ty coi hiệu quả phần mềm và tính di động là các yếu tố xác định trong giai đoạn tiếp theo của phát triển AI, cùng với cơ sở hạ tầng tính toán quy mô lớn.

Bài đăng Tether đưa TurboQuant của Google vào sản xuất, mở khóa AI ngữ cảnh dài trên các thiết bị hàng ngày xuất hiện đầu tiên trên Blockonomi.

Cơ hội thị trường
Logo Gensyn
Giá Gensyn(AI)
$0.03162
$0.03162$0.03162
-1.64%
USD
Biểu đồ giá Gensyn (AI) theo thời gian thực

Launchpad SPACEX(PRE)

Launchpad SPACEX(PRE)Launchpad SPACEX(PRE)

Đăng ký để có cơ hội quay thưởng miễn phí

Tuyên bố miễn trừ trách nhiệm: Các bài viết được đăng lại trên trang này được lấy từ các nền tảng công khai và chỉ nhằm mục đích tham khảo. Các bài viết này không nhất thiết phản ánh quan điểm của MEXC. Mọi quyền sở hữu thuộc về tác giả gốc. Nếu bạn cho rằng bất kỳ nội dung nào vi phạm quyền của bên thứ ba, vui lòng liên hệ [email protected] để được gỡ bỏ. MEXC không đảm bảo về tính chính xác, đầy đủ hoặc kịp thời của các nội dung và không chịu trách nhiệm cho các hành động được thực hiện dựa trên thông tin cung cấp. Nội dung này không cấu thành lời khuyên tài chính, pháp lý hoặc chuyên môn khác, và cũng không được xem là khuyến nghị hoặc xác nhận từ MEXC.

Cổ phiếu (Beta) đã ra mắt

Cổ phiếu (Beta) đã ra mắtCổ phiếu (Beta) đã ra mắt

Giao dịch cổ phiếu Hoa Kỳ thực qua môi giới hợp pháp