有病還是要看醫生！ChatGPT 沒有通過美國胃腸病學會考試

最新AI资讯1年前 (2023)发布 Aibot114

4,992 0 578

由 OpenAI 開發的 AI 聊天機器人 ChatGPT 風靡全球，最新推出的 GPT-4 回答甚至比 GPT-3.5 更完整正確，但是身體不適還是要尋求醫生診斷，千萬不要想著跑去問 ChatGPT 就能得到答案，因為 ChatGPT 並沒有通過美國胃腸病學會（American College of Gastroenterology，ACG）的考試，被認定無法提供患者正確的醫療資訊。

美國范斯坦醫學研究所（Feinstein Institute for Medical Research）的醫生進行一項研究測試，針對由 OpenAI 開發的 GPT-3.5 模型和 GPT-4 系統，導入 2021 年和 2022 年美國胃腸病學會自我評估測試中的多項選擇題，並分析 ChatGPT 給予的回答，結果 GPT-3.5 模型和 GPT-4 系統都沒有達到通過考試的 70% 門檻。

根據團隊測試結果，GPT-3.5 的版本正確回答 455 個問題中的 65.1%，而最新的 GPT-4 得分為 62.4%，但是很難解釋得分差距的原因，因為開發商 OpenAI 對訓練模型的方式十分保密，只有透過 OpenAI 的發言人知悉， ChatGPT 的這兩種模型都接受到 2021 年 9 月的數據訓練，但這兩個結果都沒有通過考試。

美國范斯坦醫學研究所副教授阿文德（Arvind Trindade）表示，雖然分數離及格的 70% 不遠，但是對提供醫學諮詢或醫學教育來說，分數應該在 95％以上，因為患者不會相信只了解醫療領域 70% 的醫生，所以人們應該要求醫療聊天機器人達到醫生的高標準，否則應該被認定無法提供患者正確的醫療資訊。

美國胃腸病學會的評估測試被當作培訓醫生的官方考試練習，因為要成為獲得認證的胃腸病學家，醫生需要通過美國內科委員會胃腸病學考試，而這需要大量的知識和學習，並不僅僅是憑藉著直覺作答，但是 ChatGPT 這項技術雖然先進，卻並不完美，而且往往容易產生虛假事實的幻覺，尤其是出現訓練數據中可能不存在的小眾主題。

阿文德指出，ChatGPT 的基本功能是預測文本字符串中的下一個單詞，以根據可用資訊產生預期的答案，並沒有要求資訊是否正確，而且用來訓練 ChatGPT 的只有網路資訊，而醫療資訊應該使用最好的資源，如醫學期刊或數據庫，但是這些資源並不容易取得，因為可能都被鎖在付費專區，導致 ChatGPT 可能沒有充分接觸到專家知識，因此建議 ChatGPT 不應使用在醫療諮詢。

ChatGPT can’t pass these medical exams – yet

（首圖來源：shutterstock）