Natera 是全球遺傳檢測與診斷領域的領導者,正透過 AI 代理轉型腫瘤患者照護 (oncology patient care)。當 AI 代理需要回答患者關於基因檢測結果的詢問、解釋腫瘤標記物的意義、或提供個人化治療建議時,每一個回應都可能直接影響患者的治療決策和生命安全。在這樣的場景下,「AI 說錯了,重新訓練就Natera 是全球遺傳檢測與診斷領域的領導者,正透過 AI 代理轉型腫瘤患者照護 (oncology patient care)。當 AI 代理需要回答患者關於基因檢測結果的詢問、解釋腫瘤標記物的意義、或提供個人化治療建議時,每一個回應都可能直接影響患者的治療決策和生命安全。在這樣的場景下,「AI 說錯了,重新訓練就

一般 AI 可以試錯,醫療 AI 不行——Natera 用 AWS AgentCore Evaluations 實現零容錯監控

2025/12/12 14:48

Natera 是全球遺傳檢測與診斷領域的領導者,正透過 AI 代理轉型腫瘤患者照護 (oncology patient care)。當 AI 代理需要回答患者關於基因檢測結果的詢問、解釋腫瘤標記物的意義、或提供個人化治療建議時,每一個回應都可能直接影響患者的治療決策和生命安全。在這樣的場景下,「AI 說錯了,重新訓練就好」的思維完全不適用——因為一個不準確的回應可能導致患者延誤治療、錯誤用藥,甚至放棄關鍵的治療機會。Natera 軟體工程主管 Mirko Buholzer 深知這個挑戰:「我們團隊正在進行大量工作,以維持 AI 代理在各方面的一致品質和效能,同時符合嚴格的醫療合規標準。」這不是一般科技公司面對的軟體品質問題,而是攸關生命的醫療責任。為了確保 AI 代理在大規模部署時仍能維持醫療級標準,Natera 選擇了 AWS AgentCore Evaluations——一個能夠持續監控準確性、幫助性、患者滿意度等關鍵指標的全託管品質監控服務。

醫療 AI 的「零容錯」困境:為什麼試錯成本如此致命?

當我們在日常生活中使用 AI 聊天機器人時,如果它給出不夠準確的旅遊建議或推薦了不合口味的餐廳,最壞的結果不過是浪費一些時間或金錢。使用者可以重新提問、尋求其他意見,或者乾脆不採納 AI 的建議。這種「試錯成本低」的特性,使得一般 AI 應用可以採用「快速迭代、持續優化」的開發模式——先推出基本功能,再根據使用者回饋逐步改進。即使 AI 偶爾出錯,也不會造成無法挽回的後果。

但醫療 AI 的情況完全不同。當 Natera 的 AI 代理回答患者「這個基因變異是否意味著我需要立即開始化療?」時,如果回應不夠準確或遺漏關鍵資訊,患者可能基於這個資訊做出錯誤的治療決定。更糟的是,患者往往不具備醫學專業知識來判斷 AI 回應的正確性——他們會自然地假設來自醫療機構的 AI 系統是可靠的。這種信任使得醫療 AI 的錯誤後果被放大:不僅是資訊不準確的問題,更是可能直接影響治療時機、用藥選擇,甚至生存機會的嚴重醫療事故。

從法律和合規角度來看,醫療 AI 的錯誤還可能導致機構面臨訴訟風險和監管處罰。美國食品藥物管理局 (FDA) 和其他醫療監管機構對醫療決策輔助系統有嚴格的要求,包括準確性驗證、臨床驗證、以及持續的品質監控。如果 AI 系統提供的資訊導致患者受到傷害,醫療機構不僅要承擔法律責任,還可能失去患者信任和市場聲譽——這對像 Natera 這樣的領導品牌來說是無法接受的風險。

傳統的軟體品質保證方法在醫療 AI 場景下顯得力不從心。一般的測試流程通常在開發階段進行:工程師準備測試案例、執行測試、修復發現的問題,然後將產品推向生產環境。但 AI 代理的行為具有不確定性——相同的問題在不同上下文中可能產生不同的回應,而且模型會隨著時間演進和更新。這意味著「在測試環境中通過所有測試」並不能保證在生產環境中每次互動都正確無誤。你需要的是持續監控和即時評估機制,能夠在 AI 代理與真實患者互動時,逐一檢查每個回應的品質。

過去,建立這樣的持續評估系統需要投入大量資源。數據科學團隊需要花費數月時間設計評估框架、選擇或開發評估模型、建立監控管道、整合各種數據源,並且開發視覺化儀表板。即使系統建立完成,維護和更新也需要持續的技術投入。對於專注於遺傳檢測和診斷的 Natera 來說,將寶貴的工程資源投入到建立評估基礎設施,而非改進核心醫療服務,顯然不是最佳選擇。這就是為什麼 AWS AgentCore Evaluations 的全託管方案對醫療機構如此有吸引力——它讓團隊能夠專注於醫療創新,而非基礎設施建設。

AWS AgentCore Evaluations 的 13 種醫療級把關機制

AWS AgentCore Evaluations 提供 13 種預先建置的評估器 (evaluators),每一種都針對 AI 代理品質的特定維度進行評估。這些評估器不是泛泛的品質檢查工具,而是經過精心設計、能夠應用於包括醫療在內的各種高風險場景的專業評估機制。對 Natera 這樣的醫療機構而言,這 13 種評估器共同構成了一個多層次的品質防護網,確保 AI 代理的每個回應都經過嚴格把關。

正確性 (Correctness) 評估器是最基礎也最關鍵的一環。它評估 AI 代理回應中的資訊是否在事實上準確無誤。在醫療場景中,這意味著檢查基因變異的描述是否正確、治療方案的建議是否符合臨床指南、藥物劑量和用法是否準確。正確性評估器會將 AI 的回應與可信賴的醫學知識庫比對,識別出任何可能的事實錯誤或過時資訊。當 Natera 的 AI 代理回答關於特定基因突變與癌症風險關聯的問題時,正確性評估器會確保引用的統計數據、研究結論和臨床意義都是準確的。

忠實性 (Faithfulness) 評估器則關注回應是否真實反映了提供的上下文和來源。AI 有時會產生「幻覺」 (hallucination) ——看似合理但實際上並未出現在原始資料中的內容。在醫療場景中,這特別危險,因為患者的基因檢測報告、病歷資料、和實驗室結果都是高度個人化的。如果 AI 代理在回應時添加了報告中不存在的資訊,即使這些資訊在醫學上可能正確,也會造成患者誤解自己的真實狀況。忠實性評估器會嚴格檢查 AI 的每個陳述是否都有明確的資料來源支持,避免任何未經證實的推測或添加。

幫助性 (Helpfulness) 評估器從患者的角度評估回應的有用性和價值。一個醫學上正確的回應,如果使用過於專業的術語、缺乏必要的解釋、或者沒有回答患者真正關心的問題,仍然不是一個好的回應。幫助性評估器會檢查 AI 是否真正理解了患者的詢問意圖、回應是否提供了可操作的資訊、以及語言表達是否適合患者的理解程度。例如,當患者詢問「我的檢測結果意味著什麼?」時,單純列出基因變異名稱是不夠的——AI 需要解釋這些變異的臨床意義、可能的健康影響,以及建議的後續行動。

有害性 (Harmfulness) 評估器檢測回應是否包含可能對患者造成傷害的內容。在醫療場景中,「有害」不僅指明顯的錯誤資訊,還包括可能引發不必要恐慌的表述、未經證實的治療建議、或者可能干擾正規醫療決策的內容。例如,如果 AI 代理在回應中暗示某種未經驗證的替代療法,或者使用過於絕對的語言描述預後 (如「你一定會…」),這些都可能被有害性評估器標記。Natera 需要確保 AI 代理在提供資訊時保持適當的謹慎和醫學專業性,避免給患者帶來誤導或心理傷害。

刻板印象 (Stereotyping) 評估器檢測回應中是否存在對個人或群體的不當概括。在遺傳檢測領域,這特別重要,因為某些基因變異在不同族群中的發生率確實存在差異。但 AI 代理需要謹慎處理這類資訊,避免做出可能冒犯患者或強化偏見的陳述。刻板印象評估器會確保 AI 在提及族群相關的醫學資訊時,使用科學、尊重和適當的方式,既提供臨床相關的背景資訊,又不會讓患者感到被標籤化或歧視。

  • *工具選擇準確性 (Tool Selection Accuracy) 和工具參數準確性 (Tool Parameter Accuracy) **評估器則關注 AI 代理在執行任務時是否選擇了正確的工具和參數。在 Natera 的系統中,AI 代理可能需要存取多個資料庫、查詢不同的檢測報告、或調用特定的風險評估算法。工具選擇評估器會檢查 AI 是否為特定任務選擇了最適合的工具——例如,在回答關於遺傳性癌症風險的問題時,是否查詢了正確的基因變異資料庫。工具參數評估器則確保 AI 在調用工具時使用了正確的參數——例如,在檢索患者報告時使用了正確的患者 ID 和報告類型。

此外,AWS AgentCore Evaluations 還提供目標成功率 (Goal Success Rate) 評估器,衡量 AI 代理是否成功完成了使用者的請求,以及上下文相關性 (Context Relevance) 評估器,檢查 AI 使用的上下文資訊是否與問題相關。還有安全性 (Safety) 評估器,確保回應符合安全標準和合規要求。這 13 種評估器共同構成了一個全面的品質檢查體系,從不同角度評估 AI 代理的表現,確保醫療級應用所需的高標準。

從「數月建置」到「即開即用」的評估系統

傳統上,建立一個能夠持續監控 AI 代理品質的評估系統是一項耗時且複雜的工程。數據科學團隊需要首先設計評估框架——決定要監控哪些品質維度、如何量化這些維度、以及如何處理主觀性較強的評估項目 (如「幫助性」或「語氣適當性」)。接著,他們需要開發或選擇評估模型,這可能涉及訓練機器學習模型、設計規則引擎、或整合多種評估方法。然後是建立數據管道,能夠即時擷取 AI 代理的互動記錄、將資料送入評估模型、並儲存評估結果。最後還要開發監控儀表板和告警系統,讓團隊能夠即時掌握品質狀況並快速響應問題。

根據 AWS 官方數據,這個過程在過去通常需要「數月的數據科學工作」。對於像 Natera 這樣專注於遺傳檢測和診斷的醫療公司來說,投入數個月的工程資源去建立評估基礎設施,意味著延遲了 AI 代理的上線時間,也分散了團隊對核心醫療創新的注意力。更大的挑戰在於,一旦系統建立完成,維護和更新也需要持續的技術投入——當 AI 模型升級、新的品質指標需要納入監控、或者評估邏輯需要調整時,都需要重新修改整個評估系統。

AWS AgentCore Evaluations 透過全託管服務的方式,將「數月建置」的過程壓縮為「即開即用」的體驗。作為一個完全託管的服務,它消除了複雜的基礎設施管理需求——你不需要設置伺服器、配置數據管道、或維護評估模型。13 種預先建置的評估器已經經過 AWS 大規模驗證和優化,可以直接應用於你的 AI 代理。你只需要在 AWS AgentCore 主控台中建立一個線上評估 (Online Evaluation),選擇要使用的評估器,系統就會自動開始監控你的 AI 代理。

線上評估的運作機制是持續取樣即時的代理互動。AWS AgentCore Evaluations 會自動從你的 AI 代理與使用者的對話中抽取樣本,將這些互動送入選定的評估器進行分析。評估不是針對每一個互動都執行 (這會造成不必要的成本和延遲),而是以統計上有效的取樣率進行,既能及時發現品質問題,又不會對系統效能造成顯著影響。你可以調整取樣率和過濾條件,例如只評估特定類型的問題、或者在某些關鍵時段提高監控頻率。

這種即開即用的特性對 Natera 特別有價值,因為它允許團隊在 AI 代理的整個生命週期中使用評估功能。在開發階段,團隊可以使用 AWS AgentCore Evaluations 來測試和驗證 AI 代理的表現,確保在推向生產環境之前就達到醫療級品質標準。在測試環境中,評估器可以幫助識別 AI 在哪些類型的問題上表現較弱、哪些回應模式容易產生不準確資訊、以及哪些情境需要額外的訓練或優化。

當 AI 代理部署到生產環境後,AWS AgentCore Evaluations 的持續監控功能更顯關鍵。真實世界的患者互動往往比測試案例更加多樣和複雜——患者可能用非標準的方式提問、在單一對話中混合多個問題、或者提供不完整的背景資訊。持續評估能夠捕捉這些真實世界的品質問題,幫助團隊了解 AI 代理在實際使用中的表現。更重要的是,當 AI 模型更新、系統配置調整、或者外部知識庫變更時,持續評估能夠立即檢測這些變更是否對品質產生了負面影響,讓團隊能在問題擴大之前及時介入。

自訂評估器:打造專屬醫療合規標準

雖然 13 種預先建置的評估器已經涵蓋了 AI 品質的多個重要維度,但醫療場景往往有其獨特的合規要求和品質標準,這些可能無法完全由通用評估器涵蓋。例如,Natera 可能需要確保 AI 代理在回應中總是包含特定的免責聲明、遵循特定的醫學術語使用規範、或者在提及治療選項時必須提醒患者諮詢醫師。這些組織特定的要求需要客製化的評估機制,而 AWS AgentCore Evaluations 正是透過自訂評估器 (Custom Evaluators) 功能來滿足這些需求。

建立自訂評估器的過程相對直觀。首先,你需要定義業務特定的品質指標——明確描述你想要評估的品質維度。對 Natera 而言,一個自訂評估器可能是「合規性語言使用」,用來檢查 AI 回應是否包含必要的醫療免責聲明和注意事項。另一個可能是「患者理解度」,評估回應的語言是否適合非醫學專業背景的患者理解,避免過度使用專業術語而不加解釋。還可能需要「臨床指南一致性」評估器,確保 AI 提供的建議符合最新的醫學臨床指南和最佳實踐。

在技術實作上,你需要選擇一個大型語言模型 (LLM) 作為「評判者」 (Judge)。這個評判者 LLM 會閱讀 AI 代理的回應,並根據你提供的評估標準給出評分或判斷。你可以配置推理參數,如溫度 (temperature) 和最大輸出 token 數 (max output tokens),來控制評判者的行為——較低的溫度會讓評判更加一致和確定性,較高的溫度則可能產生更多樣化的評估視角。

最關鍵的是設計評估提示 (evaluation prompt) ——這是你告訴評判者 LLM 如何評估的具體指令。AWS AgentCore Evaluations 提供兩種起點:你可以從內建評估器的提示開始修改,或者完全從頭編寫新的提示。以「合規性語言使用」評估器為例,提示可能包含:「檢查以下 AI 回應是否包含必要的免責聲明,例如『此資訊僅供參考,不構成醫療建議,請諮詢您的醫師』。如果包含適當的免責聲明,評分為 1;如果缺少或不完整,評分為 0。」

接著,你需要定義輸出量表 (output scale) ——評估結果的表示方式。這可以是數值量表 (例如 0 到 1 的分數,或 1 到 5 的評級),也可以是自訂文字標籤 (例如「符合」、「部分符合」、「不符合」)。數值量表適合需要量化追蹤和趨勢分析的場景,而文字標籤則更直觀易懂,適合需要快速判斷的情況。對醫療合規這種二元判斷 (符合或不符合) 的場景,使用「通過」和「未通過」這樣的文字標籤可能比數值分數更清晰。

最後,你需要配置評估的計算範圍——是針對單一追蹤 (single traces)、完整會話 (full sessions)、還是每個工具呼叫 (each tool call) 進行評估。單一追蹤評估適合檢查單一回應的品質,例如檢查一個回答是否準確。完整會話評估則關注整個對話的連貫性和目標達成度,例如評估 AI 代理在多輪對話後是否成功幫助患者理解了檢測結果。工具呼叫評估則專注於 AI 使用外部工具的正確性,例如驗證 AI 在查詢患者報告時是否使用了正確的資料庫和參數。

Natera 可以建立多個自訂評估器來涵蓋其特定需求。一個「患者情緒敏感度」評估器可能檢查 AI 在回應涉及不良預後或風險較高的檢測結果時,是否使用了適當的同理心和謹慎語言。一個「資料隱私合規」評估器可能驗證 AI 回應中是否意外洩露了其他患者的資訊或不應該分享的敏感數據。一個「多語言準確性」評估器可能專門檢查 AI 在提供非英語回應時的翻譯品質和文化適當性。這些客製化的評估器與 13 種內建評估器共同構成了一個完整的品質保證體系,既涵蓋通用的 AI 品質標準,又滿足醫療產業的特殊合規要求。

CloudWatch 整合:8 小時內發現 10% 品質下滑

AWS AgentCore Evaluations 的評估結果不是孤立的數據點,而是整合到 Amazon CloudWatch 中的可操作洞察。CloudWatch 是 AWS 的統一監控和可觀測性平台,負責收集、視覺化和分析來自各種 AWS 服務的指標和日誌。將評估結果發布到 CloudWatch 意味著 Natera 的運維團隊可以在同一個儀表板上監控 AI 代理的品質指標、系統效能指標、以及其他業務指標,獲得完整的系統健康狀態視圖。

所有評估結果會即時發布到 CloudWatch,並與 AWS AgentCore Observability 洞察整合。AgentCore Observability 提供代理行為的深入追蹤——記錄每個請求的完整執行路徑、使用的工具、產生的中間結果、以及最終回應。當評估器發現品質問題時,團隊不僅能看到「這個回應被評為不合格」,還能追溯到完整的執行細節:AI 代理當時的思考過程是什麼、它查詢了哪些資料來源、它為何選擇這樣回答。這種深度的可觀測性對於診斷和修復品質問題至關重要。

視覺化是 CloudWatch 整合的另一個關鍵優勢。AWS AgentCore Evaluations 在 AgentCore Observability 儀表板中提供預先建置的視覺化圖表,顯示各種評估指標的趨勢。例如,一個長條圖可能顯示過去 24 小時內「正確性」評估器的分數分布——有多少回應得到高分、有多少得到低分。一個時間序列圖可能追蹤「幫助性」指標的每小時平均值,讓團隊能夠觀察品質是否隨時間改善或惡化。一個熱圖可能顯示不同類型問題的品質表現,幫助識別 AI 代理在哪些主題領域需要加強。

更重要的是,你可以點擊任何圖表的任何區段,深入查看對應的追蹤 (traces) 和詳細資訊。例如,如果你看到某個時段的「有害性」評估出現異常高的警示,你可以點擊該時段的長條圖,系統會列出該時段所有被標記為「可能有害」的具體互動。你可以查看每個互動的完整對話歷史、AI 的回應內容、評估器給出的具體理由、以及相關的上下文資訊。這種從高階趨勢到個別案例的無縫深入能力,使得品質問題的調查變得極為高效。

告警和警報功能是主動品質監控的核心。在 CloudWatch 中,你可以為任何評估指標設定告警條件。例如,Natera 可以設定一個告警:「如果客戶滿意度評分在 8 小時內下降超過 10%,立即發送通知給運維團隊。」這個例子直接來自 AWS 官方文件,展示了如何使用評估數據進行前瞻性品質管理。傳統的監控方法通常是等待客戶投訴或負面反饋累積到一定程度才察覺問題,但這時品質問題可能已經影響了數百甚至數千名患者。透過設定靈敏的告警條件,團隊能在問題剛開始出現時——可能只影響了少數互動——就收到通知並展開調查。

告警不僅可以基於單一指標,還可以組合多個條件。例如:「如果正確性評分低於 90% 且同時有害性警示數量增加超過 5 次/小時」,這種複合條件能夠更精準地識別真正需要關注的異常情況,減少誤報。告警可以透過多種管道發送——電子郵件、簡訊、Slack 訊息、或整合到事件管理系統如 PagerDuty。對於關鍵的醫療級應用,Natera 可能會設定多層告警:輕微品質下滑發送電子郵件給開發團隊,中度問題發送 Slack 通知給值班工程師,嚴重問題則透過 PagerDuty 立即喚醒待命人員。

CloudWatch 整合還支援長期趨勢分析和報告。評估數據可以保留數週、數月甚至數年,讓團隊能夠分析長期品質趨勢——AI 代理的整體品質是否隨著持續訓練和優化而改善?某些類型的問題是否在特定季節或時段更容易出現?新版本的 AI 模型是否真的比舊版本表現更好?這些洞察不僅對即時運維有價值,更能指導 AI 產品的長期發展策略和投資優先順序。

Natera 的實戰承諾:預先識別問題,維護醫療高標準

Natera 軟體工程主管 Mirko Buholzer 對於 AWS AgentCore Evaluations 的期望明確而具體:「AgentCore Evaluations 將在我們的工作中發揮關鍵作用,透過使用準確性、幫助性和患者滿意度等關鍵指標,持續監控我們 AI 代理的效能。我們期望這種即時品質情報能幫助我們預先識別和解決問題。透過 AgentCore Evaluations,我們的目標是自信地部署可靠的代理,維持我們的高標準,並支持大規模轉型患者照護的實現。」

這段陳述揭示了 Natera 採用 AWS AgentCore Evaluations 的三個核心動機。第一是持續監控的必要性。在醫療場景中,品質保證不能僅限於發布前的測試階段。當 AI 代理開始服務真實患者時,它面對的問題複雜性、患者背景多樣性、以及臨床情境變化都遠超測試環境的覆蓋範圍。持續監控確保團隊能夠即時掌握 AI 代理在真實世界中的表現,而不是在問題累積到嚴重程度後才被動發現。透過追蹤準確性、幫助性和患者滿意度這些關鍵指標,Natera 能夠建立一個即時的品質儀表板,隨時了解 AI 代理是否維持在醫療級標準。

第二是預先識別和解決問題的能力。「預先」這個詞在醫療 AI 的脈絡中具有特別的重要性——它意味著在問題影響大量患者之前就發現並修正。傳統的被動品質管理依賴患者回饋或投訴來發現問題,但這時候錯誤資訊可能已經被數百名患者看到,造成的傷害已經無法挽回。AWS AgentCore Evaluations 的即時評估和告警機制,讓團隊能在問題剛開始出現——可能只有少數幾個案例被評估器標記為異常——時就收到通知並展開調查。這種早期預警能力是醫療 AI 從「試運行」到「生產級部署」的關鍵差異。

第三是維持高標準並支持大規模轉型的雙重挑戰。Natera 不僅要確保 AI 代理在小規模試點時表現良好,更需要在擴展到服務數千甚至數萬名患者時,仍然維持同樣的品質水準。規模化往往會暴露原本在小範圍測試時不明顯的問題——邊緣案例的累積、罕見問題的出現頻率增加、系統負載對回應品質的影響等等。AWS AgentCore Evaluations 的持續監控和統計分析能力,讓團隊能夠在規模化過程中保持信心,知道任何品質偏移都會被及時發現。

Buholzer 提到的「自信地部署可靠的代理」反映了醫療機構在採用 AI 技術時的核心關切。在醫療領域,「可靠性」不是一個模糊的概念,而是有具體的可衡量標準——AI 回應的準確率、對患者問題的理解率、提供有用資訊的比例、避免有害內容的成功率等等。AWS AgentCore Evaluations 透過 13 種內建評估器加上自訂評估器的組合,讓「可靠性」變成一組可量化、可追蹤、可改進的指標。當團隊能夠清楚地看到「我們的 AI 代理在 95% 的情況下提供準確資訊、98% 的回應被評為有幫助、零有害內容警示」時,他們就有了「自信部署」的數據基礎。

更深層的意義在於,AWS AgentCore Evaluations 使得醫療 AI 的品質管理從「藝術」轉變為「科學」。過去,判斷 AI 代理是否「足夠好」往往依賴主觀判斷和有限的測試案例。現在,透過大規模的持續評估和統計分析,團隊可以用數據驅動的方式做出決策——這個版本的模型是否比上一版更好?這次的系統調整是否改善了品質?哪些類型的問題需要優先投入資源改進?這種科學化的品質管理方法,正是醫療 AI 從研究原型走向臨床應用的必經之路。

當「零容錯」成為可能:醫療 AI 的品質新標準

從 Natera 選擇 AWS AgentCore Evaluations 來實現醫療級 AI 代理品質監控的案例中,我們看到了醫療 AI 產業正在發生的深刻變革。「零容錯」不再是一個理想化的口號,而是透過持續評估、即時監控、主動告警和數據驅動優化而實現的可操作目標。13 種預先建置的評估器涵蓋了從正確性到有害性的多個品質維度,自訂評估器允許組織實施專屬的醫療合規標準,CloudWatch 整合提供了從高階趨勢到個別案例的完整可觀測性,而全託管的服務模式則讓醫療團隊能夠專注於創新而非基礎設施建設。

當 AI 代理在回答關於基因檢測結果的問題時,每一個回應都經過多維度的品質把關;當品質指標出現 10% 的下滑時,團隊在 8 小時內就能收到告警並展開調查;當新版本的 AI 模型準備部署時,測試環境的持續評估已經提供了充分的信心保證。這就是 AWS AgentCore Evaluations 為醫療 AI 建立的新標準——不是等待錯誤發生後再補救,而是在每一次互動中主動驗證品質,確保醫療 AI 真正值得患者的信任。

想了解如何在你的醫療 AI 應用中實現持續品質監控,或探索 AWS AgentCore Evaluations 如何幫助你的組織達到醫療級標準?立即聯絡 AWS 台灣團隊,讓我們的解決方案架構師為你規劃最適合的 AI 品質保證策略。

參考資料:
•    AWS AgentCore 產品頁面
•    AWS News Blog:Amazon Bedrock AgentCore 新增品質評估和政策控制
•    AWS 發布 Amazon Bedrock AgentCore 新功能
•    AWS re:Invent 2025 重點發布

無法去拉斯維加斯親自體驗?歡迎報名參與Best of AWS re:Invent (AWS 雲端科技發表會) 線上參與,一樣精彩!

本文章內容由「Amazon Web Services (AWS)」提供。

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。