科技公司 NVIDIA 微軟宣布推出 Nemotron 3 Nano Omni,這是一款開放式多模態人工智慧模型,旨在將視覺、語音和語言功能整合到一個系統中。該模型旨在使人工智慧代理能夠處理和推理多種資料類型,包括視訊、音訊、圖像、文件和文本,同時提供更快、更有效率的回應。
根據公告,該模型定位為企業級解決方案,旨在改善多模態人工智慧代理的開發和部署。它被描述為在降低營運成本的同時提供高精度,並為開發人員和組織提供部署靈活性和控制力。據報道,該系統在與文件智慧以及音訊和視訊理解相關的多個基準測試中均取得了領先性能。
人工智慧領域的眾多公司已經開始採用這項技術,早期用戶包括Aible、Applied Scientific Intelligence (ASI)、Ekacare、H Company和Pyler。據報道,Amdocs、Dell、DocuSign、Infosys、IQVIA、Oracle、Palantir Technologies、Quantiphi、Tata Consultancy Services和Zefr等其他機構正在評估該模型,以考慮將其整合到企業工作流程中。
在技術應用領域,Nemotron 3 Nano Omni旨在減少因使用不同模態的獨立模型而通常出現的碎片化問題。傳統系統通常依賴獨立的組件進行視覺、語音和語言處理,這會增加延遲、成本,並導致跨模態推理的不一致。該模型基於混合專家設計,將視覺和音訊編碼整合到單一架構中,旨在簡化推理過程並提高吞吐量。
該系統還旨在作為更廣泛的智能體框架中的感知層,與Nemotron系列的其他模型協同工作。在實際應用中,它可以支援用於解釋圖形使用者介面的電腦使用者智慧體、用於分析混合格式企業資料的文檔智慧系統,以及用於跨多個輸入流保持上下文理解的音視頻推理工具。
該模型的架構旨在處理高解析度輸入和長上下文訊息,從而能夠更細緻地解讀螢幕錄製或多文件分析等複雜環境。此功能旨在提升需要持續感知環境狀況的任務的效能。
NVIDIA 已發布 Nemotron 3 Nano Omni 的開放模型,並提供權重、資料集和訓練方法。該公司表示,這種方式允許企業根據監管或資料治理要求,在包括雲端、本地和邊緣基礎設施在內的不同環境中自訂和部署該系統。該模型可透過多種管道取得,包括開發者平台和合作夥伴生態系統,支援整合到現有的 AI 流程中。
Source link


