感謝許駿鵬大哥的邀請,有幸跟來自 MIT 的 Polina Golland 教授吃了一頓飯。中間談論了不少東西,不過我只記錄跟我比較有關的部分。

Summer Internship

我問了 Prof. Golland 到她實驗室做 summer intern 好嗎?結果被打槍了 QQ

我的想法:

  • 我有影像處理的學習經驗及臨牀的基本訓練,對於 Matlab 還算熟練,想瞭解在醫學影像相關的實驗室研究都是怎麼進行的。
  • 目標是在三個月內做出一個小型項目。

Prof. Golland 的回答:

  • 她的實驗室基本上不收非資工、醫工出身的 PhD 申請,更遑論短期交換,因爲從知道問題到解決問題中間有巨大的鴻溝要彌補。這裏需要厲害的演算法專業。
  • 因爲她的題目源源不絕,同時都是做極細領域的電腦輔助診斷,因此我的淺薄的臨牀知識在她的實驗室沒有任何幫助。
  • 她說就算讓我去了她的 lab,我也很難跟上研究步伐,建議找 Stanford,他們有開一些給 undergraduate 的 summer internship program。

關於研究內容

所以,繼續深入瞭解 Prof. Golland 的研究內容及她的想法。

  • 她的題材主要來自哈佛教學醫院系統的臨牀醫師(而非放射科醫師),例如協助婦產科醫師判讀胎盤血液流量等。
    • 主要的目的在於,美國有很多的閱片需求,有些都需要雙人複審,但是人力遠遠不夠,因此政府同意通過認證,正確率幾乎跟真人一樣的程式可以當作判讀的第二人,例如目前 mammography 的判讀。
    • 開發這樣的程式就是 Prof. Golland 的實驗室的主要任務。
  • 對她來說,MD / PhD 是兩條截然不同的路。美國不會有人讀了 MD 又想跳資工產業寫程式,因爲 MD / PhD 是大學時期結束後的人生選擇,某種意義上其實就是不同的未來職涯的選擇。
    • Prof. Golland 覺得,MD 的主要任務在於服務、治療病人。研究上,主要是提供素材,並參與例行會議討論進度;直接參與實驗撰寫程式碼是很怪異且不符合「比較利益」的做法。

關於醫學影像處理

  • 在二維領域,還沒有任何一個程式是機器戰勝人的(例如判斷胸部 X 光、乳房攝影、電腦斷層等)。但在重組領域,有些比較複雜的重建判讀,機器佔優勢。
  • 類神經網路之類的深度學習工具在醫學影像處理領域被當成笑話,因爲訓練出來的模型精確度完全無法投入實用。Prof. Golland 說,臨牀追求的是 99.5% 以上的精確度,98% 的準確率雖然很強,但在美國臨牀醫師的眼中是垃圾一樣的成果。大部分的做法都是將巨量的 domain knowledge 應用於特定造影角度進行判讀的演算法。
  • AlphaGo/Master 給予了圍棋界新的下法及啓發,然而目前醫學影像處理並沒有爲放射科等專科帶來新的突破 feature。
  • 臨牀醫師的合作準則:能夠通過訓練讓博士生、研究員在該類型影像達到跟臨牀醫師一樣的水平。無法的話,代表有一些無法描述的東西存在與判讀演算法中,便不是合作好對象。
  • 目前炒很大的醫學人工智慧在她眼裏還只是噱頭。

更新

來自我的臉書貼文主要是台大的好朋友 Hank Hwang 的文字。

美國與台灣 MD 的差異

不過 MD 跟 PhD 的說法,應該是說美國是學士後醫,所以概念是大學後要再去做選擇時的兩條不同的道路。對比台灣很多人是被逼著大學讀醫,之後想轉行,感覺不大一樣。台灣人可能很難想像,大學主修歷史系的學生,只要也有修滿報讀醫學院的學分(pre-med)、通過考試,也可以念醫學院吧。但其實這就只是制度上的不同,而這樣的制度,從年紀這個層面來看,也可以稍微感覺到為什麼很少人會這樣子又MD又PhD,畢竟,大學畢業如果沒有gap year也沒有跳過級,一般來說都22歲了,念完MD又要至少四年,MD畢業又還不算是真正的醫師,還要實習等等的,大概到三十多才正式成為醫師,人生到那個階段,有很多責任要承擔,要放棄MD這條其實才剛剛開始的職涯,換到另一條根本開始都還沒開始的資工PhD訓練,我想一般人都不大會做這個選擇。

而且美國念醫學院非常的貴,念完通常都一屁股債,美國學貸的利率也不是很低 federal student loans,當然很少人會想轉行吧。

台灣跟美國的現象都有各自的成因。台灣這種 MD+PhD 的新興現象也未必不好,畢竟有些東西要有醫學訓練的背景才會比較有 sense。我覺得比較要思考的應該是,如果是要做醫療科技,那醫學方面的 training到底要多少,才真的會給自己比較大的助益,否則,純資工的團隊只要找幾個資深的醫師一起來合作,就可以 offset 掉他們不懂臨床實務的問題。

技術層面

我的想法是:Polina Golland 根本沒有深度學習的學術背景與論文,所以她評論深度學習的東西聽聽就好。你去看她的publications,全部都是用傳統的統計機器學習或 SVM 的方法。

(其實 medical image 的領域,落後機器學習最前端的領域蠻多的。理由是機器學習與深度學習大師與專家,很少會把他們發明的演算法先應用在醫學影像,大部分是先應用在具有大量商業價值的,例如 face recognition、object detection、object segmentation 等領域,特別是要有大量 dataset 的領域,然後才會漸漸應用在醫學影像。另外很多 medical image 的 paper 其實蠻水的,根本是用來發論文衝點數用的)

至於她認為:「類神經網路之類的深度學習工具在醫學影像處理領域被當成笑話,因爲訓練出來的模型精確度完全無法投入實用。」

我敢斷言她說的這句話有一天會變成笑話。理由是她用的傳統機器學習工具(例如 SVM、統計機器學習),在影像機器學習的精確度(例如 object segmentation、object detection),慘輸給許多深度學習演算法,所以當深度學習還沒流行起來、Geoffrey Hinton 2006 年那篇論文還沒發表、GPU 還沒做到如此性能之前,有非常大的障礙。今天他們那些傳統的演算法能在 medical image 表現的不錯,我認為那是靠著大量的 domain knowledge 撐起來的。而現在許多深度學習專家還沒將野心拓展到醫學影像專用(不過開始有了,而且有非常多新創企業)。一旦深度學習開始入侵這個領域,同時混合各種不同的機器學習演算法與 domain knowledge,這些只用傳統機器學習演算法必定兵敗如山倒。

另外她提到的「臨牀追求的是 99.5% 以上的精確度,98% 的準確率雖然很強,但在美國臨牀醫師的眼中是垃圾一樣的成果」

我這句話非常不理解。許多疾病連專精的醫師都沒有 99.5% 的精確度,不要說 98% 好了啦,有些疾病只要有 70% 精確度就可以偷笑了。舉個例子,皮膚科醫師用肉眼診斷的皮膚黑色素瘤的精確度只有60%。若皮膚科醫師手持皮膚鏡(dermatoscopy),精確率則會提升到 89%(敏感度 82.6%)ref,所以最近很熱門的議題不就是開發皮膚黑色素瘤演算法。我認為,機器學習與深度學習的價值在於,能不能把精確度、敏感度與特異度提高,提到比人類還厲害,那機器學習就以價值了。

最後貼上一篇 Google 研究部門不久之前令人振奮的成果:糖尿病的視網膜病變檢測,結果 Google 深度學習演算法表現得比眼科醫師的靈敏度與特異性還來得好。可是用她的話,難道 Google 這個工作也是個笑話嗎 XD

另外,如果以商業的角度想:如果不是經驗豐富的醫師,判斷疾病這件事情的確是沒有什麼合作價值。但是我認為年輕的醫師(eg. PGY或 intern)在醫院混久了,甚至被奴役到很不爽,知道醫療體系的落後保守與反動,知道哪些流程可以被機器學習演算法自動化或是改良。這些對我們念cs,從沒有在白色巨塔混過的人,都是非常寶貴的經驗與價值。

影像視覺與診斷輔助

deep learning的專精項目是比較偏向影像視覺的部分(例如把腫瘤區塊定位與切割出來)。至於要自動診斷(例如進行鑑別診斷、診斷推理),用到的工具可能比較不會是 deep learning,而是一些 statistical relational learning 的工具(例如用probabilistic graphical models或是 Markov logic、probabilistic soft logic 之類的)。

另外我認為目前的傳統的病例即便電子化,也很難用於自動診斷。可能比較好的方法可能是交互式診斷系統或是computer-aided diagnosis system,醫生使用人工智慧工具當作輔助診斷系統。

以青春痘為例:醫生利用鏡頭拍攝後,機器會先進行 differential diagnosis,自動診斷是青春痘的機率有多高、亦或是其他症狀類似的疾病(例如可能是毛囊炎)。而醫師根據 computer-aided diagnosis system 的建議開藥,或是醫生修正 computer-aided diagnosis system 上的藥物。如果治不好,再根據 computer-aided diagnosis system 計算出來的新處方重新開藥。而醫師的責任就是負責修正這個 computer-aided diagnosis system。這些資料都會被傳到雲端,當作訓練資料,換言之醫師的診斷行為也會被機器學習演算法學習。

當然還有一種最惡劣的方法,就是許多第三世界國家根本缺乏精良的醫師與醫療團隊,所以乾脆就開發一個 app 讓病患直接拿來用,並記錄服用藥物後的結果,講白了就是把他們當作自動診斷的實驗品。