大數據:“互聯網+”醫療的基礎 五大應用場景
來源:新芽NewSeed 時間:2015-11-20 14:56:05 [報告錯誤] [收藏] [打印]
醫療大數據的主要來源
隨著醫療衛生信息化建設進程的不斷加快,醫療數據的類型和規模也在以前所未有的速度迅猛增長,甚至到了在很大程度上無法利用目前主流軟件工具,在合理的時間內達到擷取、管理并整合成為能夠幫助醫院進行更積極目的經營決策的有用信息的地步。而且,如此具有特殊性、復雜性的龐大的醫療大數據,其搜集如果僅靠個人甚至個別機構,那基本是不可能完成的任務。那么,這些數據到底是怎么產生的,又都來自于哪里呢?經過簡單的梳理,我們大致可以把他們歸檔在以下4個框架里:
(1)病人就醫過程中產生的信息。從患者進入醫院開始,掛號環節便將個人姓名、年齡、住址、電話等信息輸入完全了;隨后在醫生就醫環節,病患的身體狀況、醫療影像等信息也將被錄入數據庫;看病結束以后,患者買單結算的過程中,又將有費用信息、報銷信息、醫保使用情況等信息被添加到醫院的大數據庫里面。這將形成醫療大數據最基礎卻也是最龐大的原始資源。
(2)臨床醫療研究和實驗室數據。臨床和實驗室數據整合在一起,使得醫療機構面臨的數據增長非常快,一張普通CT圖像含有大約150 MB的數據,一個標準的病理圖則接近5 GB。如果將這些數據量乘以人口數量和平均壽命,僅一個社區醫院累積的數據量就可達數萬億字節甚至數千萬億字節(PB)之多。
(3)制藥企業和生命科學。藥物研發所產生的數據是相當密集的,對于中小型的企業也在百億字節(TB)以上的。在生命科學領域,隨著計算能力和基因測序能力逐步增加,美國哈佛醫學院個人基因組項目負責人詹森·鮑比就認為,到2015年,將會有5000萬人擁有個人基因圖譜,而一個基因組序列文件大小約為750MB。
(4)智能穿戴設備帶來的健康管理。隨著移動設備和移動互聯網的飛速發展,便攜式的可穿戴醫療設備正在普及,個體健康信息都將可以直接連入互聯網,由此將實現對個人健康數據隨時隨地的采集,而帶來的數據信息量將更是不可估量的。
醫療大數據的特性:大數據性+醫療性
如此規模巨大的臨床實驗數據、疾病診斷數據以及居民行為健康數據等匯聚在一起所形成的醫療大數據,已然呈現出其作為大數據的特性,即:
(1)數據規模大(volume)。例如一個CT圖像含有大約150MB的數據,而一個基因組序列文件大小約為750MB,一個標準的病理圖則大得多,接近5GB。
(2)數據結構多樣(variety)。醫療數據通常會包含各種結構化表、非(半)結構化文本文檔(XML和敘述文本)、醫療影像等多種多樣的數據存儲形式。
(3)數據增長快速(velocity)。一方面,醫療信息服務中包含大量在線或實時數據分析處理,例如,臨床決策支持中的診斷和用藥建議、流行病分析報表生成、健康指標預警等;另一方面,得益于信息技術的發展,越來越多的醫療信息被數字化,因此在很長一段時間里,醫療衛生領域數據的增長速度將依然會很快。
(4)數據價值巨大(value)。毋庸置疑,數據是石油,是資源,是資產,醫療大數據不僅與每個人的個人生活息息相關,對這些數據的有效利用更關系到國家乃至全球的疾病防控、新藥品研發和頑疾攻克的能力。
而除了大數據所具有的特征(即volume,variety,value,velocity)外,醫療大數據還具有多態性、不完整性、時間性及冗余性等醫療領域特有的一些特征。
(1)多態性醫療大數據包括純數據(如體檢、化驗結果)、信號(如腦電信號、心電信號等)、圖像(如B超、X線等)、文字(如主訴、現/往病史、過敏史、檢測報告等),以及用以科普、咨詢的動畫、語音盒視頻信息等多種形態的數據,是區別于其他領域數據的最顯著特征。
(2)不完整性醫療數據的搜集和處理過程經常相互脫節,這使得醫療數據庫不可能對任何疾病信息都能全面反映。大量數據來源于人工記錄,導致數據記錄的偏差和殘缺,許多數據的表達、記錄本身也具有不確定性,病例和病案尤為突出,這些都造成了醫療大數據的不完整性。
(3)時間性患者的就診、疾病的發病過程在時間上有一個進度,醫學檢測的波形、圖像都是時間函數,這些都具有一定的時序性。
(4)冗余性醫學數據量大,每天都會產生大量信息,其中可能會包含重復、無關緊要甚至是相互矛盾的記錄。
上一篇:美國醫院這樣討好“土豪”患者 你怎么看?
下一篇:未來八大醫療新技術,亮瞎雙眼!