微軟新工具讓開發者能透過文字描述快速建立AI行為測試

微軟於週二推出名為 ASSERT 的開源框架，全稱為 Adaptive Spec-driven Scoring for Evaluation and Regression Testing，旨在簡化針對特定產品或服務進行 AI 系統行為測試的過程。該框架利用 AI 技術，將高層次的自然語言描述轉化為詳細的評分測試，這些測試可針對目標系統執行並記錄結果。ASSERT 能將對 AI 模型預期行為和政策的平語言描述，轉化為結構化的可接受與不可接受行為集，並生成問題情境與測試案例。它還能記錄 AI 系統的路徑，包括中間動作與工具呼叫，協助開發者檢查失敗發生地點。開發者可提供系統背景、工具及限制條件以進一步自訂評估範圍。例如，開發者可指定檔案研究 AI 代理不應向公司外人員傳送郵件，並限制機密資訊僅供 C 級高管檢視，同時根據先前背景提供簡潔摘要。ASSERT 將使用這些規則生成持續檢查系統是否遵循規則的測試案例。微軟負責 AI 的首席產品官莎拉·柏德指出，評估對於做出正確決策至關重要，若不瞭解 AI 系統行為，則難以判斷其是否符合組織標準。她強調，若要建立可信賴的系統，應評估更多與應用相關的維度。ASSERT 可用於系統開發、部署後及持續監控階段。此發布正值 AI 產業逐漸轉向更廣泛的測試與回歸檢查，隨著模型能力增強，研究人員專注於可重複測試，斯坦福的 HELM、MLCommons 的 AILuminate 及 METR 等評估團體正推出基準測試，以測量模型在不同條件下的行為。