TetherのAIリサーチグループは、Google Researchが開発したメモリ圧縮アルゴリズム「TurboQuant」のオープンソース本番バージョンをリリースしました。
このリリースはQVAC SDK 0.12.0の一部であり、ラップトップ、スマートフォン、エッジデバイス、および分散型ネットワークを対象としています。クラウドインフラに依存せず、ローカルのAIモデルがより長いセッションを処理できるようになります。
これは、デバイス上のAIがメモリ集約型タスクを管理する方法における実践的な転換点となります。
メモリは、コンシューマー向けハードウェアで高性能なAIモデルを実行する際の長年の障壁でした。AIアシスタントが長い文書や会話を処理する際、そのコンテキストをKVキャッシュと呼ばれる領域に保存します。
約262,000トークンにおいて、4BモデルのKVキャッシュだけで約8GBのメモリを消費します。4つの同時セッションでは、モデル自体を除いても32GBに達する可能性があります。
TurboQuantは、KVキャッシュを最大5倍圧縮しながら、非圧縮モデルに近い出力品質を維持することでこの問題に対処します。
ユーザーはラップトップ上のアシスタントに、100ページの法律文書をリモートサーバーにアップロードすることなく分析するよう依頼できるようになりました。
学生、開発者、ジャーナリスト、研究者はいずれも、すでに所有しているデバイスで、より長くコンテキストを認識したAIセッションの恩恵を受けることができます。
このリリースの背後にある広範な理由について、Tether CEOのPaolo Ardoinoは研究と実用的なソフトウェアとのギャップを指摘しました。
"Googleの研究は、AIメモリがほとんどの人が想定していたよりもはるかに効率的に圧縮できることを示しました」と彼は述べました。「私たちの取り組みは、その突破口を開発者、スタートアップ、ユーザーが実際に活用できる本番ソフトウェアへと実現させました。"
本番リリースには、完全な量子化パイプライン、フレームワークアダプター、開発者向けドキュメント、およびワークロードに合わせたプロファイルが含まれています。
これらのコンポーネントは、ハイパースケールデータセンター以外の実環境向けに設計されており、メモリが制限された環境、混在するハードウェア、レイテンシに敏感なデプロイメントに対応しています。
TurboQuantはQVAC SDK 0.12.0の一部として提供され、QVACスタックのコアコンポーネントであるFabricに直接統合されています。
Fabricはllama.cppのフォークとして始まり、その後複数の研究成果を取り込む形で発展してきました。SDKは開発者にローカルAIアプリケーションを構築するための統合されたツール、ライブラリ、およびランタイムコンポーネントを提供します。
スタートアップや独立した開発者にとって、これは大規模なAI製品に高価なGPUクラスターが必要という前提を覆すものです。
チームはより長いコンテキストウィンドウ、より大きなファイルのワークロード、コンシューマーおよびエッジハードウェアへの柔軟なデプロイメントを設計できるようになりました。これにより、クラウド専用アーキテクチャなしにAI製品を構築する実践的な道が開かれます。
データプライバシーとクラウド依存に関する懸念に対応し、Ardoinoはローカルデバイスでのタスク処理を維持することの重要性を主張しました。
"人々は、すべてのタスクをリモートデータセンターに強制的に通すことなく、AIアシスタントに長い文書を読んだりプライベートな情報を処理したりするよう依頼できるべきです」と彼は述べました。その意味で、TurboQuantはローカルAIにより多くの動作余地を与えます。
Tetherの戦略は、個人デバイスや分散型ネットワークを通じて、ユーザーにより近い場所で動作するAIを中心としています。同社は、大規模なコンピューティングインフラと並んで、ソフトウェアの効率性とポータビリティをAI開発の次の段階を定義する要素と捉えています。
この記事はBlockonomiに最初に掲載されました:TetherがGoogleのTurboQuantを本番環境へ導入し、日常のデバイスでの長コンテキストAIを解禁。


