哈佛 study 中，AI 提供的急診診斷準確度高過兩名人類醫生

一項新研究探討大型語言模型在多種醫療情境下的表現，包括真實的急診室案例，其中至少有一個模型在準確性上似乎優於人類醫生。該研究於本週發表於《Science》期刊，由哈佛醫學院與貝斯以色列女執事醫療中心（Beth Israel Deaconess Medical Center）的醫師與電腦科學家領導的研究團隊完成。研究人員進行了多項實驗，以衡量 OpenAI 的模型與人類醫師的表現差異。其中一項實驗聚焦於 76 位進入貝斯以色列急診室的病患，比較兩位內科主治醫師的診斷與 OpenAI 的 o1 及 4o 模型生成的診斷。這些診斷由另外兩位不知曉來源的主治醫師評估。研究指出，在每個診斷接觸點，o1 模型表現與兩位主治醫師相當或略優，且在資訊最少且最需緊急決策的初階分診階段，這種差異尤為顯著。

哈佛醫學院在新聞稿中強調，研究人員未對資料進行任何預處理，AI 模型僅接收電子醫療記錄中當時可用的資訊。在此情況下，o1 模型在 67% 的分診案例中提供了完全或非常接近的診斷，而其中一位醫師僅在 55% 的案例中達成，另一位則為 50%。研究負責人之一、哈佛醫學院 AI 實驗室主管 Arjun Manrai 表示，該模型在幾乎所有基準測試中均超越先前的模型及醫師基線。然而，研究並未宣稱 AI 已準備好做出危及生命的緊急決策，而是指出需要進行前瞻性試驗以評估這些技術在真實世界患者照護中的表現。研究人員還指出，模型僅針對文字資訊進行測試，現有研究顯示基礎模型在處理非文字輸入時推理能力有限。

貝斯以色列的醫生 Adam Rodman 警告稱，目前缺乏關於 AI 診斷的正式責任框架，且患者仍希望人類引導其做出生死攸關及具挑戰性的治療決策。急診醫師 Kristen Panthagani 在評論中表示，這是一項有趣的 AI 研究，但也引發了一些過度吹噓的標題，因為研究比較的是 AI 診斷與內科醫師，而非急診醫師。她指出，若要比較 AI 工具與醫師的臨床能力，應先與實際該專科醫師比較，並強調急診醫師的首要目標是確定患者是否有致命狀況，而非