DGrid AI 推出全新的品質證明(Proof of Quality)框架,旨在評估 AI 輸出結果並改善去中心化網路中的獎勵分配機制。
去中心化 AI 網路長期面臨一個支付難題,研究人員多年來一直在悄然尋求解決方案,而 DGrid AI 近期發表的一篇論文直接將這一問題攤上檯面。驅動節點獎勵的品質評分系統,在很大程度上依賴於手頭已有正確答案以供比對。然而在實際生產環境中,這樣的答案幾乎不存在。
這篇論文是 DGrid 品質證明(PoQ)持續研究系列的第四篇,提出了一種經過訓練的替代方案,並公開了其背後的具體數據。PoQ 使用小型評估模型對每個輸出的品質進行評分,並以這些分數驅動獎勵分配。成本低廉,且具備擴展性。
DGrid 逐步構建這套系統:一個將延遲納入支付計算的成本感知版本、一個在評分者說謊或怠工時仍能維持穩健性的對抗防禦層,以及一個將「品質」拆解為可審查組成部分的框架。工程紮實。但每一層都不斷撞上同一堵牆。
去中心化推論網路的基本架構本身就帶來了衡量上的挑戰。獨立節點運行語言模型並回應使用者查詢,這些回應需要被評分,因為分數決定報酬。對每筆運算進行密碼學驗證在技術上雖然無懈可擊,但在大規模部署時成本過於高昂,因此實際可行的路徑是使用較小型模型進行自動化品質評估。
DGrid 早期的研究逐步完善了這一方法,增加了延遲調整的支付機制、針對惡意評分者的防禦措施,以及對評分情境中「品質」實際含義的更細緻拆解。然而,始終無法完全解決的是評估信號本身的問題。
團隊所掌握的最強信號是語義相似度:將模型輸出與已知正確答案進行比較,並在嵌入空間中測量兩者之間的距離。這在存在參考答案的基準測試環境中行之有效,但在使用者提出開放式問題、資料庫中沒有任何標準答案可供查詢的實時網路中則無法運作。
現成的替代方案測試結果更差。NLI 跨編碼器(一種專為評估句子間邏輯蘊含關係而設計的模型類別)在不提供參考答案的情況下用於評估答案品質時,皮爾森相關係數為 −0.363。負相關意味著該模型更傾向於對差的回應給出更高評價。這根本不是一個可用的評估工具。
研究人員沒有選擇改造現有模型,而是專門訓練了三個評審模型,用於無參考答案的品質評分。每個模型以問題和回應作為輸入,輸出 0 到 10 的分數,且不提供任何正確答案。
三個模型的主要差異在於規模和速度:
訓練採用兩階段流程。模型首先在 UltraFeedback(一個包含 GPT-4 評分回應的公開資料集)上進行預訓練,再針對網路自身的任務分佈進行微調。其目的是在縮小評分情境焦點之前,先讓評審模型對品質建立廣泛的基礎認知。
在 300 個樣本的保留測試集上,DeBERTa 評審模型在不存取任何參考答案的情況下,對標準答案代理指標達到了 0.747 的皮爾森相關係數。而舊框架中可以存取正確答案的基於參考的評估器,最高僅達到 0.647。
這一差距有一個直接的解釋。舊有評估器是衡量與參考嵌入餘弦距離的相似度指標,而新的評審模型則針對評分任務本身進行端到端優化。性能差異所反映的正是這一區別,而非任何架構上的突破。
作者特別說明了一點:此處使用的標準答案本身也是一種代理——是詞元層級的詞彙重疊,而非人類判斷。評審模型與這一指標的相關性良好,但詞彙重疊是否能可靠地反映人類對高品質回應的判斷,則是一個獨立且尚未解決的問題。
評審模型還附帶兩項面向部署的功能。一個級聯管道首先將查詢路由至輕量級模型,僅在分數不明確時才升級至更重型的模型,在最激進的閾值設定下,評估成本降低了最多 72.7%,但在該配置下相關係數降低到約 0.51。一個無需手動調整的線上校準機制,持續將語義品質識別為主導信號並相應調整權重,隨著時間推移,語義品質的權重增加到其初始值的 4.7 倍。
評審模型在不同任務類型上的表現參差不齊。在問答任務上,相關係數達到 0.830;在摘要任務上,則降低到 0.199。論文將此歸因於訓練期間所用的評估指標,而非評審模型本身的缺陷:原始詞彙重疊對摘要品質的衡量效果不佳,因此以此為目標訓練的模型所學習的是一個較弱的信號。作者將此描述為當前首要的開放性問題,而非被悄然管控的已知限制。
這種表述方式與論文整體呈現結果的風格一致——有條不紊,失敗案例的陳述與改進成果同樣清晰明確。這一研究系列歷經四篇論文,整體工作讀起來不像是產品發布公告,更像是一支團隊在逐步填補某個他們真正打算投入部署的系統中的空缺。
免責聲明:本內容由第三方提供。Crypto.news 及本文作者均不對本頁面提及的任何產品背書。使用者在對相關公司採取任何行動之前,應自行進行研究。


