醫學大數據研究在中國
Big Data and medical research in China

原文鏈接 https://www.bmj.com/content/360/bmj.j5910
作者:張路霞[*1,2],王海波[*3,4],李全政[5],趙明輝[1,6],詹啟敏[7]
[*]張路霞和王海波為并列第一作者。
機構地區:
[1]北京大學第一附屬醫院腎臟內科,北京大學腎臟病研究所,中國北京;
[2]北京大學健康醫療大數據研究中心,中國北京;
[3]中山大學第一附屬醫院臨床研究中心,中國廣州;
[4]標普醫學信息研究中心,中國深圳;
[5]哈佛大學醫學院附屬麻省總醫院MGH&BWH臨床數據科學中心,美國馬薩諸塞州波士頓;
[6]北大-清華生命科學聯合中心,中國北京
[7]北京大學醫學部,中國北京。
過去的十年,我們見證了數據資源的快速累積,日常生成并收集的數據量出現了驚人的增長,同時,各行各業尤其是在醫學領域,分析和解釋這些海量數據的能力也取得了長足的進展。在過去的幾年中,國人對于大數據在醫學領域的應用傾注了巨大的熱情,期望通過將強大的數據資源與新技術相結合來解決現有的諸多挑戰,也希望通過大數據提供更好的循證決策,來改變現有醫學模式[1]。中國幅員遼闊,人口眾多,隨著基礎醫療系統的普及和我國醫療信息化的快速發展,中國可以擁有“更大的數據”。 因此,本文我們將重點討論大數據在中國的現狀以及未來利用大數據推動中國醫學研究的機會。
什么是“大數據”?
二十年前,大數據被定義為“需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產[2]。”如今,數據數字化已經成為醫療行業的常態。通過多種醫療記錄、監管信息和醫學研究,大量的醫療數據正在產生[3]。在全球范圍內,數據量預計將以每兩年翻一番的速度增長,到2020年,數據量將比2011年增長50倍(44ZB)[4]。除了數據量(volume)[5]之外,我們還關注大數據的類型(variety)和速度(velocity),這些被統稱為大數據的3V特征。醫療數據的多樣性歸因于多種數據來源,這些數據來源反映了健康和疾病過程的總體情況,包括結構化數據和非結構化數據。醫療大數據的來源主要有:1)行業監管性數據和醫療保險數據;2)常規人口統計和重大疾病監測數據;3)真實世界證據,包括電子醫療檔案(EMR)或電子健康檔案(EHR),醫學影像和健康體檢數據;4)研究數據,包括來自臨床試驗或隊列研究的生物標志物和多組學信息;5)登記系統(器械,操作,疾病);6)移動醫療設備;7)患者自我報告的數據。此外,醫療數據正在與來自社交媒體、職業信息、地理位置、經濟數據和/或環境數據的各種信息相結合[6],將所有這些信息源集成到可用于分析的數據集中是發揮大數據效力的關鍵。另外,大數據生成和處理的速度還應該能夠滿足預防和治理疾病的實時需求。于是乎,上述3V特征就構成了20年前制定的大數據定義的關鍵要素[2]。
最近,真實性(veracity)作為大數據的目標之一,被納入到大數據的定義之中[7]。盡管懷疑論者認為大數據難以驗證,并且永遠不可能“100%準確”[5,8],但毋庸置疑,為了最大限度地利用大數據,數據質量的持續改進是不可或缺的。與大數據相關的另一個重要概念是,數據的匯集本身并非是我們的最終目的,相反,數據必須要被分析、被解釋和被執行。因此,為了獲取大數據的全部價值(value),我們需要不斷地發展新興技術和分析方法(如機器學習),并且必須評估這些新生成信息的臨床效果,并將其轉化為臨床實踐工具[9]。因此,這2個V,即真實性(veracity)和價值(value),被認為是描述大數據重要特征所必需的新維度。
中國的醫療數據從哪里來?
促進大數據在醫療領域的應用已經成為中國著重發展的內容。2016年7月,國務院辦公廳印發了《促進和規范健康醫療大數據應用發展的指導意見》(以下簡稱《意見》)(表1)。10 意見指出,健康醫療大數據是國家重要的基礎性戰略資源。健康醫療大數據應用發展將帶來健康醫療模式的深刻變化,有利于激發深化醫藥衛生體制改革的動力和活力,提升健康醫療服務效率和質量,擴大資源供給,不斷滿足人民群眾多層次、多樣化的健康需求,有利于培育新的業態和經濟增長點。
伴隨著上海市和寧波市等區域醫療中心的不斷涌現,中國人民共和國國家衛生和計劃生育委員會(以下簡稱衛計委)宣布啟動健康醫療大數據中心與產業園建設國家試點工程。11 確定福建省、江蘇省及福州、廈門、南京、常州為第一批試點省市。這些大數據中心建成后將可以整合以下數據來源:
中國正在充分利用大數據的力量,利用身份證明信息將不同來源的數據進行鏈接。以醫療保險數據為例,不論是抽樣率5%的抽樣數據庫,還是覆蓋6億參保人員5年數據的總體數據庫,研究者都可以向其監管機構——中國醫療保險研究會申請,在通過嚴格的審批流程后進行使用(非公開數據)。自2016年開始,多個研究項目已被批準使用中國醫保數據來評估心血管疾病、糖尿病、腎病和慢性阻塞性肺病等慢性病的疾病負擔。此外,公共衛生領域的專家和學者也在利用其他包括病案首頁數據庫和國家死亡登記數據庫等國家級管理型數據進行研究。13,14
個體化醫療數據也同樣受到重視。中華人民共和國科學技術部(以下簡稱科技部)在2016年啟動了國家重點研發計劃“精準醫學研究”重點專項并資助了多個獲批項目。一個將可存儲一系列大型人群隊列全部數據和生物樣本的“精準醫學整合數據平臺”已經開始建設。這個平臺將納入至少70萬研究對象,其中40余萬人來自自然人群隊列研究,30余萬人來自重點慢性非傳染性疾病患者隊列研究。得益于中國巨大的人群數量和中央集中式的管理方式,大樣本研究將為精準醫學的發展提供巨大的價值。
除了政府引導的研究項目之外,中國的醫學學術研究團隊和機構也已經在數據共享的研究領域開始了行動(表2)。2017年10月,北京大學公共衛生學院發布了中國隊列共享平臺(China Cohort Consortium,chinacohort.bjmu.edu.cn)。中國隊列共享平臺首批已納入近20余項隊列及相關研究項目,如李立明教授牽頭的中國成人50萬隊列、雙生子隊列等,涵蓋慢性病、傳染病、婦幼健康、職業病等多個研究領域。該平臺將可使用通用數據模型實現數據協調;完成患者個體化數據的薈萃分析;甚至形成新的隊列項目。另外,基于專項疾病數據共享的平臺也在不斷涌現,涵蓋包括心血管疾病、卒中、癌癥和腎臟疾病等。例如,2015年推出的中國腎臟疾病數據網絡(China Kidney Disease Network,kidney.net.cn)應用前沿技術,分析整合后的多種來源腎臟疾病數據,既可為健康醫療政策的提供證據支持,還可以用于加速學術研究進程,更可以有效促進腎臟病領域的疾病管理。15
中國的醫療大數據應用的道路并不平坦
EMR和EHR的應用水平仍待提高。
一般來說,EMR是指一家醫療機構中于健康醫療相關的電子數據,而EHR是指貫穿多家機構之間的某一個個體患者的電子醫療數據。目前EMR和EHR在中國仍未廣泛被應用于學術研究。其中EMR主要被用于對日常醫療實踐的管理,也由此產生了大量的非結構化數據(表3)。即便中國已有超過九成的醫院在應用EMR,但其數據可及性和數據質量仍是一個亟待解決的問題。
EHR雖然已在發達國家廣泛應用,但在中國的發展仍然遇到很多困難。中國現在有超過300家開發醫院EMR系統的廠商,均采用了各自不同的技術架構和數據標準。而且不同的健康醫療體系之間并未要求進行數據交換。即便如前文提及的,已有一些區域醫療信息平臺建成并使用,但這些平臺大多仍處于初級建設和應用的階段,仍需大量的優化和升級工作,特別是針對數據結構、數據標準、和數據傳輸協議方面的改進。衛生監管部門、醫院和EMR廠商應就如何改進醫院信息系統達成共識,并開發能夠用于整合多源異構數據的相關技術。衛生監管部門也應該利用政策手段加強不同醫療機構之間的數據交換和整合。
缺乏醫學數據系統
醫療大數據應用遇到的另一個重大挑戰,就是缺乏統一的廣泛應用的醫學術語系統。目前在中國,多個術語標準在被同時應用。例如,2002年衛計委授權對全國住院病人的診斷數據編碼使用國際疾病分類系統(ICD),包括ICD-9和ICD-10。然而,醫療信息系統的爆炸式增長使得臨床術語編碼出現很多變種,以至于極難完成數據交換。一些普遍被認可的術語系統尚未在中國應用,包括醫學系統命名法-臨床術語(SNOMED CT)、統一醫學語言系統(UMLS)或醫學語言、百科全書和術語命名的通用架構(GALEN)。這些系統旨在通過整理和統一關鍵醫學術語、分類和編碼標準,從而促進更有效地、具有互操作性的生物醫學信息系統和服務,也包括EHR。另外,這些系統普遍都是用英語開發的,如果要應用這些系統,還需要解決中英文之間的轉換問題。
現有的醫療實踐模式
中國現行的醫療系統基礎架構和醫療實踐模式也給大數據在這個領域的有效應用帶來了挑戰。由于缺乏一個良好的轉診制度,加上各地醫療質量的巨大差異,很大程度上造成了“醫療移民”這一現象,患者需要在不同的省份和城市之間不斷的旅行才能完成就醫。在中國現行的醫療系統中,基本無法根據臨床需要在不同的EMR或區域EHR系統中實現患者轉移。唯有建立一個整合全中國醫療機構數據的統一平臺,才可能實現對患者個體數據的可追溯性。如果在中國開展“深度患者”(Deep Patient)研究16,即使用機器學習的方法分析醫療數據來預測可能出現的不良事件,其將面臨的主要障礙既不是建立分析所需的機器學習算法,也不是要召集更多的患者參與研究,而是要基于EMR或EHR得到每個患者的縱向數據和臨床結局。另外,臨床醫療實踐中存在的巨大異質性也會對研究結果的真實性產生影響。
數據質量
以上提到的多個問題都會最終影響到大數據應用的質量。已經有證據表明,將大數據分析應用在高質量的臨床數據時,得到的結果也會更加有效、穩定和有意義。17 但是,獲得高質量的臨床數據集難度非常大。一種方式是仔細審查數據庫特征并判斷哪些變量是相對準確的(例如醫保數據中的費用數據),然后用這些數據來回答所研究的問題。當然,要從根本上提高數據質量,需要在多部門持續共同投入巨大的精力完成,包括數據有效性、數據代表性和完整性等。
隱私問題
雖然隱私問題是健康醫療大數據應用中的一個極其重要的問題。但目前中國還未有相關的法律和法規對這方面的問題進行解釋和規定。如何能在保證數據應用完整性的條件下對隱私進行保護?這個問題亟待監管部門出臺相關的規定和研究標準。
中國應用大數據提高健康醫療水平的機遇?
大數據在醫學中的應用包括公共健康促進(疾病監測,人口管理),醫療管理(醫療質量控制、績效管理),藥品和醫療器械監測,日常臨床實踐(風險預測,診斷準確性和決策支持)和學術研究等。1,9
通過大數據方法監測重大疾病趨勢、為醫療衛生政策提供證據支持,在中國已有法定國家管理型數據庫的基礎上,是一件相對容易完成的任務。應用機器學習等先進的數據分析手段來代替放射科和解剖病理科學家也已經成為目前中國一個熱點研究領域。18 但是中國的數據生態系統還未成熟到可以為臨床決策支持系統這類需要長期的深度隨訪的高質量數據的應用提供支撐。
一直以來,關于中國的健康醫療大數據的討論都是由計算機科學家和醫療信息化產業引導的,主要圍繞在數據的收集、存儲、整合和管理。然而,健康醫療大數據的未來不應只局限于之前的數據層面,而是要逐漸轉向利用先進的分析技術回答相關臨床問題,幫助臨床醫生和政策制定者理解大數據,優化基于大數據產生的臨床決策支持工具等。
結論
中國已經宣布,在國家層面加速健康醫療大數據應用布局。這一舉措將在不久的將來對醫學研究、醫療實踐和醫療行業的發展產生深遠的影響。盡管我們對健康醫療大數據這一領域傾注了前所未有的巨大熱情,我們仍倡導投身于此的研究者遵循儒家古訓:“博學之,審問之,慎思之,明辨之,篤行之”,讓大數據真真正正地給當今醫學帶來顛覆性變革。
要點:在中國,健康醫療大數據的應用機遇與挑戰并存,已經成為國家發展的重點。大數據與創新數據應用技術的融合極有可能給醫學研究和對疾病、健康的理解帶來顛覆性的變革。
參考文獻
1. Obermeyer Z, Emanuel EJ. Predicting the Future - Big Data, Machine Learning, and Clinical Medicine. N Engl J Med 2016;375(13):1216-9. doi: 10.1056/NEJMp1606181
2. Available from: https://www.gartner.com/it-glossary/big-data/ accessed December 5 2017.
3. Auffray C, Balling R, Barroso I, et al. Making sense of big data in health research: Towards an EU action plan. Genome Med 2016;8(1):71. doi: 10.1186/s13073-016-0323-y
4. Austin C, Kusumoto F. The application of Big Data in medicine: current implications and future directions. J Interv Card Electrophysiol 2016;47(1):51-59. doi: 10.1007/s10840-016-0104-y
5. Baro E, Degoul S, Beuscart R, et al. Toward a Literature-Driven Definition of Big Data in Healthcare. Biomed Res Int 2015;2015:639021. doi: 10.1155/2015/639021
6. Fernandez-Luque L, Bau T. Health and social media: perfect storm of information. Healthc Inform Res 2015;21(2):67-73. doi: 10.4258/hir.2015.21.2.67
7. Kruse CS, Goswamy R, Raval Y, et al. Challenges and Opportunities of Big Data in Health Care: A Systematic Review. JMIR Med Inform 2016;4(4):e38. doi: 10.2196/medinform.5359
8. Ward JC. Oncology reimbursement in the era of personalized medicine and big data. J Oncol Pract 2014;10(2):83-6. doi: 10.1200/JOP.2014.001308
9. Rumsfeld JS, Joynt KE, Maddox TM. Big data analytics to improve cardiovascular care: promise and challenges. Nat Rev Cardiol 2016;13(6):350-9. doi: 10.1038/nrcardio.2016.42
10. China to boost big data application in health and medical sectors [Available from: http://english.gov.cn/policies/latest_releases/2016/06/24/content_281475379018156.htm accessed June 10 2017.
11. China to build health care big data centers, industrial parks [Available from: http://www.nhfpc.gov.cn/zhuz/tpxw/201610/38c38546204c45dba44298291ad173c3.shtml accessed June 10 2017.
12. Shan L, Wu Q, Liu C, et al. Perceived challenges to achieving universal health coverage: a cross-sectional survey of social health insurance managers/administrators in China. BMJ open 2017;7(5):e014425. doi: 10.1136/bmjopen-2016-014425
13. Zhang L, Long J, Jiang W, et al. Trends in Chronic Kidney Disease in China. N Engl J Med 2016;375(9):905-6. doi: 10.1056/NEJMc1602469
14. Zhou M, Wang H, Zhu J, et al. Cause-specific mortality for 240 causes in China during 1990-2013: a systematic subnational analysis for the Global Burden of Disease Study 2013. Lancet 2016;387(10015):251-72. doi: 10.1016/S0140-6736(15)00551-6
15. Zhang L, Wang H, Long J, et al. China Kidney Disease Network (CK-NET) 2014 Annual Data Report. Am J Kidney Dis 2017;69(6S2):A4. doi: 10.1053/j.ajkd.2016.06.011
16. Miotto R, Li L, Kidd BA, et al. Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records. Sci Rep 2016;6:26094. doi: 10.1038/srep26094
17. Altman RB, Ashley EA. Using "big data" to dissect clinical heterogeneity. Circulation 2015;131(3):232-3. doi: 10.1161/CIRCULATIONAHA.114.014106
18. Available from: http://english.gov.cn/policies/latest_releases/2017/07/20/content_281475742458322.htm accessed December 4 2017.