2020年5月13日 星期三

數據科學在精準醫學上的應用(楊永正老師)

除了這次的演講,我也曾在不同的課堂聽楊老師講資料科學在精準醫學的應用,因此本文正好可作為兩年來的學習小結。

楊老師的立論與 Mayer-Schonberger 和 Cukier 的《大數據》以及 Collins 的《基因救命手冊》類似,亦即定序數據的累積和人工智慧演算法的發展,有助於挖掘具應用價值的關聯性,使我們得以(1) 辨識疾病的預測因子,(2) 了解相同疾病因個體差異造成的療效差異,(3) 依據個人體質設計健康管理方法和療程。

不過我在實踐中發現,利用巨量資料發現關聯性的理想與發展精準醫學的目標有些衝突。首先,隨著探索的性狀亦發精微,所需的樣本數也愈來愈多。

以近年來在台灣逐漸風行的腸道微生物學研究為例,儘管定序成本逐年下降,但是當定序開銷能為多數研究團隊負擔時,微生物與宿主健康狀況的明顯關聯多被報導,以至於研究前沿需要的代謝體或蛋白質體等多體學資料才能探討更深層的機制,而這些技術的耗費又如當年定序一般高額。

換句話說,效應量大的現象會被資本雄厚的團隊以新進技術搶先發現,效應量小的現象又需要超出預算的投資才有機會揭示,我們也許永遠無法獲得足夠規模的巨量資料。

其次,楊老師上課時常提及資料科學在探討致病機制的應用。然而機制要在實驗層次驗證已不簡單,若要從關聯研究推論則更加困難。巨量資料的立論之一是將雜亂視為資料的本質,而這些混亂無法透過先進技術改善,因此要用數量優勢抵銷品質落差以觀察出宏觀趨勢。

但實際上我們往往受限於樣本數,把不同性質的研究材料合併以從事統計分析或建立機器學習模型,以至於忽略了研究材料的組內差異。即使得出卓越的結果,也需要相應的理論和假說支持,無法單憑數據分析的關聯性論斷機制。

綜上所述,雖然資料科學在精準醫學有相當的應用價值,但是因為數據品質往往無法滿足對問題的需求,因此我認為比起發展何種「科學」,能取得適當的「資料」是實踐精準醫學的關鍵。妥善的研究設計、精確的資料蒐集以及具檢定力的收案量能確保有限的數據發揮最大的功效,我猜這也是為什麼楊老師在最後要強調台灣要有自己的資料庫的緣故。

沒有留言:

張貼留言