跳至內容
AI 新聞站
返回

微軟新工具讓開發者能透過文字描述快速建立AI行為測試

微軟於週二推出名為 ASSERT 的開源框架,全稱為 Adaptive Spec-driven Scoring for Evaluation and Regression Testing,旨在簡化針對特定產品或服務進行 AI 系統行為測試的過程。該框架利用 AI 技術,將高層次的自然語言描述轉化為詳細的評分測試,這些測試可針對目標系統執行並記錄結果。ASSERT 能將對 AI 模型預期行為和政策的平語言描述,轉化為結構化的可接受與不可接受行為集,並生成問題情境與測試案例。它還能記錄 AI 系統的路徑,包括中間動作與工具呼叫,協助開發者檢查失敗發生地點。開發者可提供系統背景、工具及限制條件以進一步自訂評估範圍。例如,開發者可指定檔案研究 AI 代理不應向公司外人員傳送郵件,並限制機密資訊僅供 C 級高管檢視,同時根據先前背景提供簡潔摘要。ASSERT 將使用這些規則生成持續檢查系統是否遵循規則的測試案例。微軟負責 AI 的首席產品官莎拉·柏德指出,評估對於做出正確決策至關重要,若不瞭解 AI 系統行為,則難以判斷其是否符合組織標準。她強調,若要建立可信賴的系統,應評估更多與應用相關的維度。ASSERT 可用於系統開發、部署後及持續監控階段。此發布正值 AI 產業逐漸轉向更廣泛的測試與回歸檢查,隨著模型能力增強,研究人員專注於可重複測試,斯坦福的 HELM、MLCommons 的 AILuminate 及 METR 等評估團體正推出基準測試,以測量模型在不同條件下的行為。


分享這篇文章:

上一篇
Uber限制員工AI開支預算 四個月用完
下一篇
馬丁·斯科西斯成為最新且最出人意料的華納兄弟AI聲援者