國立臺灣大學醫學院附設醫院教學部醫師
劉政亨
國立臺灣大學醫學院附設醫院教學部教學設計師
張予華
國立臺灣大學醫學院附設醫院教學部醫師
楊志偉

AI 增能模型：生成式 AI 時代的專業能力新框架

生成式 AI 進入臨床與教學日常後，醫學生、不分科住院醫師(PGY)、住院醫師與臨床教師查找資料更快了；鑑別診斷、病程摘要、教學講稿，甚至評量題幹與回饋文字，也變得隨手可得。過去專業能力的「護城河」，一部分來自知識上的落差，一部分來自長時間訓練累積的經驗，但如今 AI 讓資訊取得幾乎零門檻，專業的邊界也正在被重新定義。

這個變化讓醫學教育立刻遇到兩個急迫的問題：第一，我們要培養的「能力」究竟是什麼？第二，在人機協作成為常態後，我們要如何辨識與評量學員的專業表現？

故本文提出「AI 增能模型」（AI-Augmented Competency Model），以三個核心概念，重新描述生成式 AI 時代的專業能力，包括：雙重素養（Dual Literacy）、交互控制（Shared Control）以及共同作業空間（Joint Workspace），這三個概念都能在認知科學、學習理論與人因科學中找到相關的理論脈絡。

一、雙重素養：專業領域素養 × AI 素養

臨床能力的層次及架構可追溯至 1990年Miller提出的臨床能力金字塔（Miller’s Pyramid）[1]：從底層的「知道」（Knows）、「知道如何」（Knows How）、到「展示如何」（Shows How）與頂層的「實際執行」（Does）。進到 AI 時代後，金字塔底層的內容更容易被 AI 代勞；相對地，「展示如何」與「實際執行」仍需要人的判斷與行動。Cruess 等學者後來在金字塔頂端加上「成為」（Is）這一層 [2]，把專業認同納入討論，這也是 AI 難以取代的一環。

專業領域素養（Domain Literacy）：從「記得很多」到「判斷得準」

專業領域素養仍是根本，但隨著AI的發展，專業角色逐漸轉變，專家的工作重心從「儲存知識」逐步導向「驗證與整合知識」。用能力導向醫學教育（CBME）的語言 [3] 來說，專業能力的定義正在從「能記住多少」導向「能否在真實情境中做出正確判斷」。

面對 AI 的產出，使用者的差距往往出現在後端的判斷：能否辨識不合理的推論、發現關鍵遺漏資訊，並把資訊放回病人與情境中做整體判斷。用 Flavell 的說法 [4]，這牽涉到「後設認知」（Metacognition）：對自己認知過程的覺察與調控，包括知道自己知道什麼、不知道什麼，以及如何驗證與修正。在臨床推理中，後設認知讓醫師能夠「問對問題，並且識別資料的正確性」，也知道何時需要回頭查證與修正。

AI 素養（AI Literacy）：理解限制以及有效提問

AI 素養的概念源自 Long 與 Magerko 提出的定義 [5]，可從三個面向來看：理解模型的能力與限制（如幻覺 [6]、偏誤等）、能把問題與指令說清楚（提示詞工程）以及能回到可靠來源（臨床指引、原始文獻）做交叉查證，也就是對AI的認識、駕馭AI的技巧跟查證AI回應的能力。其中批判思考與查證能力也可以參照過去常提到的「資訊素養」（Information Literacy），只是資訊來源的主角從網路變成 AI。更進一步而言，如果對於AI有足夠的理解，也能幫助我們成為「會問問題」的使用者，避開大型語言模型的限制，並善用其優於人類的長處。

呈上，在人機協作的實務上，兩種素養需要同時發揮，才能順利增能：專業領域素養影響你問什麼、怎麼判斷；AI 素養則影響你怎麼問、怎麼把輸出整理成可用的答案。兩者搭配起來，專業價值更像是「能整合判斷、說清楚理由，並讓決策可被追溯與究責」。醫學教育的重心也會跟著移動，從不斷地背誦，轉移到不同情境中運用AI系統做出有根據的選擇。

這不代表醫師的專業角色會被取代，更務實的壓力，可能來自生產力與業務量被推高：過去可以花一個上午思考、診斷一位複雜病人；未來在人機協作下，必須得在半個鐘頭完成過去一整個上午的思考量。以外科醫師為例，手術本身的速度或許不會改變，但術前診斷、手術規劃的時間都可能因為人機整合而大幅加速，甚至可以達成即時生成的術前模擬計劃。因此，專業能力的定義正在重塑，而非消失，人機協作增能可說是新的專業護城河。

二、交互控制：人機協作中的限制條件

回到人機增能的實務面，不管是人腦或是AI的能力邊界都有所限制，因此必須要有某種程度的負荷控制。這部分可以從人類的認知偏誤以及大語言模型的限制來理解，前者例如壓力下的決策容易出錯、工作記憶有限；後者則是大型語言模型的幻覺，以及容易受到關鍵字影響回應結果等等。另外，即便大型語言模型在很多地方已經展現出超人類的效率及智慧，當人類認知難以跟上的時候，系統就會成為黑盒子，而失去了可解釋性以及人類的可擔責性，因此這兩個部分必須要同時關注，維持人機協作的平衡。另外如 Hutchins 的「分散式認知」（Distributed Cognition）理論 [8]：認知不僅發生在個人腦中，也分布於人、工具與環境之間。用這個角度來看，AI 是認知系統的一部分，負責處理資訊、儲存記憶、執行運算；整體認知的品質則取決於人如何協調與整合這些分散的資源。綜上所述，我們必須有方法控制AI的產出是聚焦且正確，並且將篇幅控制在人腦的認知負荷範圍內。否則上下文脈絡交代不清楚，AI文本就容易失焦；二是認知負荷缺乏管理，AI產出一多，人反而越難消化與判斷。

認知負荷控制（Cognitive Load Control）：把心力留給高階判斷

根據認知負荷理論 [10]，學習者的工作記憶有限，過多的認知負荷會消耗心力，由此觀之，生成式AI縱使能產生大量的文本，也未必能發揮效益，因為使用者早已被文本淹沒。在人機協作的互動當中，可以考慮把總結摘要、格式化、對話生成等初階任務交給 AI，讓學員把認知負荷保留給高階決策，例如研究計劃思考，臨床推理判斷等；但也必須警覺過度的「認知卸載」（Cognitive offloading）[11]可能造成思考能力退化與過度信任等問題。

上下文管理（亦即情境管理；Context Management）：把關鍵背景交代清楚，才能得到可用的建議

同樣是「胸痛」的問題，如果能把年齡、危險因子、生命徵象、心電圖、檢驗結果與過去病史等關鍵背景交代清楚，AI 的回答通常更貼近臨床需要。相反地，缺乏脈絡的提問很容易導致空泛、錯置或過度自信的文本。研究也發現，大語言模型在處理長上下文時容易忽略中段資訊（「中段失憶」現象）[9]，因此妥善的上下文管理更顯得重要。藉由把臨床問題結構化，可以讓 AI知道「你在處理哪一種病人、哪一個情境、哪一個決策點」。

舉例而言，未來的臨床使用者會需要決定哪些資訊是需要提供給醫療用AI參考，多餘資訊則精簡化以避免AI的回應受到影響。同理，教學設計者利用AI輔助時，也可考慮將相關上下文，例如考古題格式、學員人數時間、可用資源設備作為上下文一起提供給AI輔助工具。

綜上所述，交互控制提醒我們除了有效的上下文管理，保持人機協作過程中的人類參與與掌控(human in the loop)，是讓我們維持有效認知控制的手段之一，也避免最終文本產生後使用者卻不知其所以然。

三、共同作業空間：讓 AI 融入工作流程，減少另開視窗

目前的人機協作如果採用視窗介面或是網頁分頁來取用大型語言模型的話，很容易讓工作流程卡在「切換成本」：在 EMR、教材、報告與聊天視窗之間來回複製貼上、上傳下載，還要回頭翻對話紀錄找脈絡。因此可以參考 Hollnagel 與 Woods 提出的「共同認知系統」（Joint Cognitive Systems）理論 [7]：與其把人和機器當成兩個獨立個體在「互動」，不如把它們視為一個共同運作的認知系統，目標是一起把事情做完。這個觀點強調的是「人機系統做了什麼」，而非「人與機器如何溝通」。共同作業空間的想法其實很簡單：把 AI 放進你真正工作的介面裡，讓它能看到你正在看的資料與文件，並把建議、修改、引用來源與人工決策並列呈現。如此不僅能降低錯誤風險，也能讓流程可更追溯、可究責。

在醫療與教育場域，這可能是電子病歷中的輔助書寫、檢驗報告解讀與臨床決策支援；也可能是教案製作、題庫生成、回饋撰寫等教學工作中的嵌入式 AI。因此，實務上，我們期待看到工作介面旁就有整合式的AI助手，與使用者共享目前的頁面資訊，並且可以交替接手檔案的生成、編輯或是管理。

四、理論整合：三個概念如何相互支撐

這三個核心概念彼此牽動，共同構成一個相互支撐的系統（見圖一）：

雙重素養是能力基礎：沒有專業領域素養，就難以校準 AI、辨識錯誤；沒有 AI 素養，也很難把問題問清楚、把輸出查證到位。兩者交織形成新時代的「專業護城河」。
交互控制是協作策略：共同認知系統的觀點提醒我們，人機協作的品質往往取決於上下文管理、認知負荷控制。這兩者交互控制決定了人類主導、且AI生成隨時處於可控的範圍。
共同作業空間是工作流的優化：活動理論 [12] 指出，工具與環境會反過來形塑實踐方式。唯有把 AI 嵌入工作流程並且記錄版本，協作過程才會留下可教、可學、可評的痕跡。

圖1、 AI 增能模型概念架構：雙重素養（Domain Literacy × AI Literacy）為基礎，交互控制（Context Management × Cognitive Load Control）為策略，在共同作業空間（Joint Workspace）中進行實踐。

對 AI 導入醫學教育的三個行動建議

把雙重素養納入課程與評量：在未來世代的課程中除了本職學能，也應留意是否涵蓋AI素養的導入，課堂不再排斥AI使用，而是將「提問–查證–修正」視爲學習的一部分，或是要求學員呈現提示設計、引用來源與驗證策略，而不只交付最終答案。若教學目標回歸領域素養的話，也應該考慮讓學員在無AI輔助的環境下進行測驗。
用交互控制定義「人機協作」的安全邊界：利用上下文管理控制生成式AI產生的文本，使其不至於產生幻覺或過度發散，而認知負荷控制提醒我們隨時保留人類的監管，避免多步驟任務一下子完成以後，使用者面對大量的文本不知所終。交互控制的目標是把主導權與究責性留在人類身上。
投資共同作業空間與治理機制：在安全合規前提下，讓 AI 嵌入既有工作流程（如電子病歷、學習管理系統、寫作工具），並建立清楚的使用規範（去識別化、最小必要資料、引用標示、版本控制）。

若把傳統專業能力比喻為「在較少外部輔助下也能完成任務的本領」，那麼 AI 增能更像是在既有能力之上加上一套鷹架（scaffolding）[13]：它可以降低外在認知負荷、加速產出、讓學員把心力留給高階推理與溝通，並且達成超越過去的人類增能。

表1、傳統專業能力 vs AI 增能模型（AI 作為「鷹架」）

面向	傳統專業能力	AI 增能模型
能力焦點	個體內化的知識、技能與推理	雙重素養：專業領域素養 × AI 素養（理解限制、有效提問、可靠查證）
	以「自己能做出來」為核心（必要時查資料）	交互控制：何時主導／委託／監督，校準信任與責任歸屬
	產出多由人親自完成，外部工具多為輔助性，通常不在主要工作流程中。	認知負荷管理與「適度外包」：把低階任務交給 AI，但保留核心判斷（避免能力退化）
評量方式	知識測驗、OSCE、工作場所評量常偏向「結果／表現」	過程導向：要求呈現提示設計、關鍵脈絡、引用來源、查證與修正紀錄
	強調獨立完成度（較少呈現資訊取得與查證過程）	評量「人機協作」的安全與品質：能否辨識不確定、指出限制、做出可追溯與可究責的決策
		可加入情境模擬：在受控工具／資料集下觀察協作策略與監督行為
系統需求	基本教學／臨床系統（LMS、EMR）、教材與臨床指引	共同作業空間：把 AI 嵌入 EMR／LMS／寫作環境，降低切換成本與外在認知負荷
	工具與流程相對分離；可接受一定程度的切換與人工整理	透明與治理：來源／引用標示、版本留痕、查證紀錄、資料保護與使用規範
		上下文設計：情境模板、重點摘要、關鍵資料置頂，避免長上下文「中段失憶」

結語：增能而非取代

AI 會持續讓「取得答案」跟「產生文本」變得更容易，這個趨勢大概也不可逆。醫學教育真正要守住的，是學員的判斷力、責任感與倫理自覺。AI 增能模型提供一個討論框架：以雙重素養建立能力基礎，以交互控制把主導權與究責性留在人身上，以共同作業空間把協作過程轉化為可追溯、可再現的工作流程。本文所提出之人機協作增能模型把認知科學、人因工程與學習理論放在同一個脈絡裡討論，當人機協作成為常態後，「專業能力」會被重新定義，而非消失：從「獨自完成」轉向「協作完成」，從「記住知識」轉向「運用判斷」，從「產出答案」轉向「承擔責任」，期許處於天天有驚喜的AI世代的我們，做好準備一起邁向人機協作增能的時代。

參考文獻

Miller GE. (1990). The assessment of clinical skills/competence/performance. Academic Medicine, 65(9), S63-S67. https://doi.org/10.1097/00001888-199009000-00045
Cruess RL, Cruess SR, Steinert Y. (2016). Amending Miller’s Pyramid to Include Professional Identity Formation. Academic Medicine, 91(2), 180-185. https://doi.org/10.1097/ACM.0000000000000913
Frank JR, Snell LS, Cate OT, et al.(2010). Competency-based medical education: theory to practice. Medical Teacher, 32(8), 638-645. https://doi.org/10.3109/0142159X.2010.501190
Flavell JH. (1979). Metacognition and cognitive monitoring: A new area of cognitive–developmental inquiry. American Psychologist, 34(10), 906-911. https://doi.org/10.1037/0003-066X.34.10.906
Long D, Magerko B. (2020). What is AI Literacy? Competencies and Design Considerations. Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems, 1-16. https://doi.org/10.1145/3313831.3376727
Ji Z, Lee N, Frieske R, et al.(2023). Survey of Hallucination in Natural Language Generation. ACM Computing Surveys, 55(12), 1-38. https://doi.org/10.1145/3571730
Hollnagel E, Woods DD. (2005). Joint Cognitive Systems: Foundations of Cognitive Systems Engineering. CRC Press. https://doi.org/10.1201/9781420038194
Hollan J, Hutchins E, Kirsh D. (2000). Distributed cognition: toward a new foundation for human-computer interaction research. ACM Transactions on Computer-Human Interaction, 7(2), 174-196. https://doi.org/10.1145/353485.353487
Liu NF, Lin K, Hewitt J, et al.(2024). Lost in the Middle: How Language Models Use Long Contexts. Transactions of the Association for Computational Linguistics, 12, 157-173. https://doi.org/10.1162/tacl_a_00638
Young JQ, Van Merriënboer J, Durning S, Ten Cate O. (2014). Cognitive Load Theory: Implications for medical education: AMEE Guide No.86. Medical Teacher, 36(5), 371-384. https://doi.org/10.3109/0142159x.2014.889290
Risko EF, Gilbert SJ. (2016). Cognitive Offloading. Trends in Cognitive Sciences, 20(9), 676-688. https://doi.org/10.1016/j.tics.2016.07.002
Engeström Y. (2001). Expansive Learning at Work: Toward an activity theoretical reconceptualization. Journal of Education and Work, 14(1), 133-156. https://doi.org/10.1080/13639080020028747
Wood D, Bruner JS, Ross G. (1976). The role of tutoring in problem solving. Journal of Child Psychology and Psychiatry, 17, 89-100. https://doi.org/10.1111/j.1469-7610.1976.tb00381.x