台中慈濟醫院重症醫學科主任
倪永倫
AMEE參觀分享—人工智慧在醫學教育與臨床醫學的應用
自從OpenAI在2022年11月發表ChatGPT 3.5以來,各個不同的領域,甚至於醫學教育以及臨床照護方面,都受到了很大的衝擊。2023年更被稱之為AI元年。處於浪潮中的醫學生、臨床以及醫學教育工作者,該保持什麼樣的態度來應對,也是一門重要的課題。2023年8月舉辦的歐洲醫學教育年會(AMEE)針對這方面特別規畫了一場研討會,在這裡跟大家做一些分享。
早在希臘神話中,即出現了一些人造生命和機械智慧相關的故事。1956年John McCarthy在達特茅斯會議上提出了人工智慧(Artificial Intelligence, AI)的初步定義,認為AI是一種能夠複製或超越人類智能的計算機科學,並相信通過邏輯和符號處理,我們可以模擬出人類智能的各個面向。1997年Machine Learning的出現開始改變AI的面貌,電腦通過學習,從數據中提取規律和模式,然後應用這些知識來進行預測、分類或決策。到了2012年, Deep Learning使用多層神經網絡(Deep Neural Networks)來模擬和模仿人類大腦的結構,具備可以自動學習、理解和提取特徵的功能,並且在不斷優化中提高性能,可以處理更複雜及高層次的問題。
整體來說,AI須具備autonomy(自主意識)以及adaptivity(自適應學習)的能力。AI的進程從早期的reactive machine(如Chess AI), 到 limited memory machine(如Self-driving cars),到theory of mind,以及未來可能發展的self-aware AI。從weak AI(如chatbot),到strong AI,自然語言處理,robotics,fuzzy logic(如自動駕駛),到專家系統都是AI的範疇。
2021年底至今,則是生成式AI(Generative AI, GAI)的時代。這類模型利用Deep Learning理解和學習現有的數據,進一步根據指令,生成(或創造)類似的數據、圖像、文字、音頻或視頻等內容。OpenAI在2021年11月發表的ChatGPT 3.5即是屬於GAI中的大型語言模型(Large Language Model),使用自然語言對話的模式來互動。GPT 3.5學習了至2021年為止45TB的資料,並且具有2000億的參數。當接收到一系列的輸入詞之後,會通過學到的上下文理解来预测下一个可能的語詞,以詞為單位來生成回答,是以GPT本身是以概率的運算來回答問題,而不是以邏輯思考來回答問題,而這可能跟AI幻覺的產生有關。數月後推出的ChatGPT 4,更增加了圖像處理文字化,非英文語言處理能力優化,以及更新至2023年的資料量與更多的參數等功能。
ChatGPT發表以來,教育現場碰到的第一個狀況就是學生利用GPT來繳交作業或考試。於是又有了AI鑑別器(AI Discriminator)的發表,用以區分一份資料是否是藉由AI而生產出來。各個學校也開始針對學生使用GAI建立限制或規範,然而使用GAI卻是越來越廣泛的趨勢。在2023年8月,New York Times則針對GAI作出了下面幾點建議: 1.建議假定所有的學生都會利用AI來繳交作業或應對開卷試考試。因此老師們的課題是思考如何設計一份適當的作業、或是有分辨力的考試方式和內容,而非因循傳統的評量方式。 2.學校應停止使用AI discriminator (如Turnitin)來偵測出使用AI的學生,摒棄使用AI就是作弊的觀念。因為鑑別器並無法可靠的分辨出一份文檔是否為藉由AI產生, OpenAI今年也因“低準確率”而停止了A.I.寫作檢測器。並且,使用AI應被視為利用了一樣有效的工具,而不是作弊的行為。3.把焦點放在AI的強項上。我們應瞭解AI的缺陷,有效的利用,但須針對GAI生成的內容再次核對校正。
GAI目前被大眾所討論的缺陷,包括下面幾個方面:1. AI hallucination: GAI生成的結果中有3.5-27%的比例為人工智慧產生的幻覺,其使用的訓練數據並不能證明輸出的合理性,是屬於「有自信的假話」。比如引用文獻時,標示出一篇完全不存在的論文。 2. Inconsistence: 當我們詢問GAI一模一樣的問題時,有時可能會得到不相同的回答,因此產生的內容可能具有不確定性需要被再次確認。3. 偏見和歧視: 訓練過程中GAI可能學習到原始數據中的偏見,並且因不同文化的觀點,在生成內容時產生偏見或文化的歧異。4.倫理與法律問題: 目前並不知用戶輸入GAI的內容,是否會成為進一步訓練的資料,存在隱私或未公開資料無法保密的風險。NIH已禁止使用GAI作為分析和撰寫peer review的工具, 使用者更應注意輸入資料的去識別化與隱密性。 5.訊練需求以及成本高: 訓練需要大量的數據,當數據庫不夠充足時,可能無法回答更專業的問題。每次的問題運算都耗費相當的能源(電力與水),如何在永續節能方面平衡,仍需要繼續努力。6. 困難解釋性: 生成式模型通常難以解釋(black box),在醫學上需清準回答的問題中,模型如何做出特定的生成是一個難以理解的功能。
ChatGPT 3.5 以六成的正確率通過了USMLE考試,ChatGPT4更是以86.7%的準確率通過。然而,AI並不會取代醫生,但熟悉AI的醫師可能會取代不會使用的醫師。在教學以及臨床方面,已經有很多AI相關的應用。比如影像學的輔助判讀系統,能自動檢測和分析X光、電腦斷層及核磁共振影像,幫助醫生更快速精準的判斷。診間中的AI病歷自動生成系統、護理紀錄或會議紀錄自動生成系統,讓大家減少花在電腦上的時間,把重點放回到病人身上。患者監測管理或早期預警系統,藉由監測及分析患者生理或實驗數據,可提早警示如敗血性休克等疾病,改善治療效果。手術輔助系統可藉由擴增實境(augmented reality),增加手術精確性及減少風險。自然語言處理(LLM)可以幫忙不同語言間翻譯溝通或整理衛教資料,也可以從醫學文獻、病歷等大量文本中提取歸納有價值的信息,節省人力時間。AI可以模擬出虛擬病房或模擬病例,提供醫學生實際互動、練習診斷或治療決策等過程,並可即時調整內容或難度,達到個性化學習的目標。Google在2023年底更推出了Gemini系統,正如同「最好的應用還沒有出現、科技沒有極限」的想法,更多的教學與臨床輔助功能也一直在持續開發中。
2023年多篇針對醫學生的研究也指出,七成以上的學生對 AI保持正向的態度,願意接受、使用、且認為未來醫學生涯中一定會使用到AI,但只有少於半數的學生認為自己具備相關的能力。AI的改變日新月異,相對於數碼素養(Digital literacy)高,容易接受AI的年輕世代,醫學教育現場的老師以及畢業多年的臨床工作者們,更是需要積極的更新學習,趕上這股AI的浪潮。
參考資料: