袁燁
江蘇先聯(lián)信息系統(tǒng)有限公司,210012,南京市雨花臺區(qū)郁金香路17號南京(雨花)國際軟件外包園
摘 要
本文主要對醫(yī)療衛(wèi)生數(shù)據(jù)倉庫的架構(gòu)、數(shù)據(jù)特點(diǎn)、實(shí)現(xiàn)方法和應(yīng)用等方面,進(jìn)行了廣泛而深入的探討。
關(guān)鍵詞 數(shù)據(jù)倉庫
Bulidingthe Data Warehouse of MedicalHealth
Abstract
The paper is concerned with extensive and in-depth discussion which about architecture, data characteristic, realization method and application of the data warehouse of medical health.
Keywords Data Warehouse
1 引言
近年來,伴隨著醫(yī)療數(shù)字化和區(qū)域衛(wèi)生數(shù)字化的蓬勃發(fā)展,各個(gè)醫(yī)療衛(wèi)生機(jī)構(gòu)的數(shù)據(jù)量迅速增長,對數(shù)據(jù)處理和分析的需求越來越強(qiáng)。將醫(yī)療衛(wèi)生數(shù)據(jù)統(tǒng)一、集中、建立數(shù)據(jù)倉庫,不僅能用于生成醫(yī)療報(bào)表,還能夠提供數(shù)據(jù)分析、輔助決策、知識挖掘等,是醫(yī)療衛(wèi)生工作今后發(fā)展的方向,對于醫(yī)療衛(wèi)生管理、臨床治療、醫(yī)療衛(wèi)生科研、衛(wèi)生事業(yè)發(fā)展等領(lǐng)域都有巨大的推動作用和里程碑式的意義。
2 數(shù)據(jù)倉庫的架構(gòu)
醫(yī)療衛(wèi)生數(shù)據(jù)來源于各個(gè)業(yè)務(wù)系統(tǒng)、人工統(tǒng)計(jì)和相關(guān)行業(yè)等,在同一種業(yè)務(wù)系統(tǒng)里,會出現(xiàn)不同廠商、不同時(shí)期的各種版本,數(shù)據(jù)離散雜亂,數(shù)據(jù)總量非常大。數(shù)據(jù)倉庫首先通過數(shù)據(jù)總線,將業(yè)務(wù)系統(tǒng)和文件的數(shù)據(jù)按照相關(guān)規(guī)范交換進(jìn)數(shù)據(jù)中心,這個(gè)數(shù)據(jù)規(guī)范既參考了國際衛(wèi)生信息交換標(biāo)準(zhǔn)(HL7),又結(jié)合了衛(wèi)生部頒發(fā)的數(shù)據(jù)集規(guī)范,和數(shù)據(jù)中心對主數(shù)據(jù)的管理一起,保證了進(jìn)入數(shù)據(jù)中心的數(shù)據(jù)的規(guī)范性、完整性和一致性(見圖1)。
圖1:數(shù)據(jù)倉庫架構(gòu)圖
數(shù)據(jù)在數(shù)據(jù)中心規(guī)范化、整理后,通過ETL平臺的抽取、轉(zhuǎn)換、加載進(jìn)入數(shù)據(jù)倉庫。數(shù)據(jù)倉庫中的數(shù)據(jù)不再是業(yè)務(wù)流程數(shù)據(jù),而是對一個(gè)個(gè)事實(shí)的描述,以及對維度的定義。再根據(jù)分析或挖掘的不同主題,建立相對應(yīng)的數(shù)據(jù)集市,將數(shù)據(jù)ETL到數(shù)據(jù)集市中。數(shù)據(jù)集市中的數(shù)據(jù),高度匯總又包含有各個(gè)維度,非常適合于多維報(bào)表查詢、輔助決策及分析挖掘。最后,由統(tǒng)一的門戶進(jìn)行查詢訪問。
3 醫(yī)療數(shù)據(jù)倉庫的特點(diǎn)
醫(yī)療衛(wèi)生的數(shù)據(jù)不同于一般數(shù)據(jù)倉庫數(shù)據(jù),包含如下四個(gè)特點(diǎn):
多樣性:從醫(yī)患交流、醫(yī)學(xué)影像、檢測結(jié)果中獲取的醫(yī)學(xué)數(shù)據(jù),表現(xiàn)形式具有多樣性,比如:文本形式(如主訴、現(xiàn)/往病史、過敏史、病程、檢測報(bào)告等)、圖表形式(如體溫的記錄表、心電圖、CT等)、影像形式(如X光片、超聲心動圖等)等。
隱私性:醫(yī)療衛(wèi)生數(shù)據(jù)不可避免地涉及到患者個(gè)人的隱私信息,這些數(shù)據(jù)將會涉及到法律、倫理道德、社會和心理等因素,有信息安全隱患。
不完整性:大量數(shù)據(jù)來源于人工記錄,導(dǎo)致數(shù)據(jù)記錄的偏差和殘缺,許多數(shù)據(jù)的表達(dá)、記錄本身也具有不確定性,病例和病案尤為突出。
冗余性:醫(yī)療衛(wèi)生數(shù)據(jù)是一個(gè)龐大的數(shù)據(jù)資源,每天都會有大量的記錄存儲到數(shù)據(jù)庫中,其中可能會包含重復(fù)的、無關(guān)緊要的、甚至是相互矛盾的記錄。
4 數(shù)據(jù)倉庫的建立
在明確了醫(yī)療衛(wèi)生數(shù)據(jù)倉庫的架構(gòu)和數(shù)據(jù)特點(diǎn)后,我們就著手建立數(shù)據(jù)倉庫,共分為如下四個(gè)步驟。
4.1.元數(shù)據(jù)管理
數(shù)據(jù)是整個(gè)數(shù)據(jù)倉庫的基礎(chǔ),醫(yī)療衛(wèi)生的數(shù)據(jù)源很復(fù)雜,數(shù)據(jù)項(xiàng)又非常多,手工維護(hù)起來非常麻煩,需要有一個(gè)平臺統(tǒng)一管理,來保證數(shù)據(jù)的正確性。元數(shù)據(jù)管理平臺,就是用來管理數(shù)據(jù)的平臺,在這個(gè)平臺上,我們通過綜合考慮國際衛(wèi)生信息交換標(biāo)準(zhǔn)(HL7)、衛(wèi)生部頒發(fā)的數(shù)據(jù)集規(guī)范以及數(shù)據(jù)上傳交換的具體實(shí)現(xiàn),定義了數(shù)據(jù)中心所有對象的結(jié)構(gòu)和字典的取值范圍(見圖2)。
圖2:元數(shù)據(jù)管理平臺
然后,通過數(shù)據(jù)總線,我們要將各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù),上傳進(jìn)數(shù)據(jù)中心。這個(gè)上傳的步驟不光要定義系統(tǒng)的接口、數(shù)據(jù)的規(guī)范化、代碼值的規(guī)范化,還需要主數(shù)據(jù)的統(tǒng)一,比如人的信息,在不同系統(tǒng)中的可能代碼不同,但是數(shù)據(jù)中心里要使用統(tǒng)一的ID。
4.2.主題劃分
數(shù)據(jù)倉庫是面向主題的,是在高層次上對醫(yī)療衛(wèi)生海量信息進(jìn)行綜合、歸類、分析和提取。各個(gè)主題所涉及的數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系,進(jìn)過有效的組織,形成一個(gè)個(gè)完整的分析領(lǐng)域,即主題域。
我們將醫(yī)療衛(wèi)生信息劃分為以下幾個(gè)主題域:衛(wèi)生資源主題域、醫(yī)療服務(wù)主題域、公共衛(wèi)生主題域、藥物管理主題域等(見圖3)。
圖3:主題劃分
主題域需要具有獨(dú)立性和完備性,獨(dú)立性是指主題域必須具有獨(dú)立內(nèi)涵,有明確的界限;完備性是指,能夠在一主題域內(nèi)找到分析所要求的一切數(shù)據(jù),如果涉及到主題之外的數(shù)據(jù),那么就應(yīng)當(dāng)將這些數(shù)據(jù)增加到該主題中來,從而完善該主題。
4.3.模型搭建
在需求分析層面,我們劃分好了主題域,確定了每個(gè)主題域的含義和內(nèi)容,接下來就要在具體實(shí)現(xiàn)層面,建立數(shù)據(jù)庫。建立數(shù)據(jù)庫的第一步是需要搭建數(shù)據(jù)模型。對于數(shù)據(jù)倉庫來說,數(shù)據(jù)建模是建立以事實(shí)和維度為主的星座模型(見圖4)。
圖4:星座模型
要注意數(shù)據(jù)建模需要兼顧具體業(yè)務(wù)的處理方法和數(shù)據(jù)庫技術(shù)的實(shí)現(xiàn),比如在一張表內(nèi)包含業(yè)務(wù)時(shí)間和數(shù)據(jù)庫操作時(shí)間等。
4.4.ETL
數(shù)據(jù)倉庫的骨架搭建好以后,我們要把數(shù)據(jù)由數(shù)據(jù)中心,進(jìn)過加工處理,導(dǎo)入到數(shù)據(jù)倉庫中,這步稱之為“ETL”。由于在數(shù)據(jù)中心,數(shù)據(jù)已經(jīng)規(guī)范化,代碼取值已經(jīng)符合值域規(guī)定,主數(shù)據(jù)也已經(jīng)統(tǒng)一,那么在ETL中,清洗數(shù)據(jù)的工作得以簡化。而主要處理的是將分散的數(shù)據(jù)進(jìn)行匯總、歷史數(shù)據(jù)進(jìn)行拼接、醫(yī)療衛(wèi)生業(yè)務(wù)邏輯運(yùn)算、數(shù)據(jù)的不同粒度匯總以及維度的關(guān)聯(lián)等。
同時(shí),我們運(yùn)用ETL工具,來設(shè)計(jì)這些ETL步驟及對步驟的調(diào)度。調(diào)度包括歷史數(shù)據(jù)的初始化和每日或者實(shí)時(shí)的增量處理。通過ETL工具,可以很好的觀測數(shù)據(jù)處理的情況和日志以及追蹤數(shù)據(jù)處理的問題,提高工作效率、簡化代碼開發(fā)。
醫(yī)療衛(wèi)生數(shù)據(jù)倉庫的成功搭建和良好的日常維護(hù),給數(shù)據(jù)倉庫應(yīng)用提供了條件和基礎(chǔ)。數(shù)據(jù)倉庫應(yīng)用,可以分為報(bào)表展現(xiàn)、數(shù)據(jù)分析、輔助決策和知識挖掘等方面,結(jié)合不同的主題域,形成了醫(yī)療衛(wèi)生數(shù)據(jù)倉庫應(yīng)用矩陣(見表1)。如果涉及到主題域的子域,可以進(jìn)一步細(xì)化。
|
報(bào)表展現(xiàn)
|
數(shù)據(jù)分析
|
輔助決策
|
知識挖掘
|
衛(wèi)生資源
|
√
|
√
|
|
|
醫(yī)療服務(wù)
|
√
|
√
|
√
|
√
|
公共衛(wèi)生
|
√
|
√
|
√
|
√
|
藥物管理
|
√
|
|
|
√
|
表1:數(shù)據(jù)倉庫應(yīng)用矩陣
下面對各主題域分別介紹數(shù)據(jù)倉庫應(yīng)用的情況:
衛(wèi)生資源指人、財(cái)、物三方面的資源,人力資源包括醫(yī)生、護(hù)士、醫(yī)技人員的執(zhí)業(yè)情況、職稱狀態(tài)、教育和培訓(xùn)等情況的監(jiān)督管理;財(cái)務(wù)資源主要是針對醫(yī)療衛(wèi)生機(jī)構(gòu)的資金投入、支出等狀況的有關(guān)信息的掌握和監(jiān)控;設(shè)備管理包括對醫(yī)療衛(wèi)生設(shè)備及物資的使用情況、運(yùn)行狀況、備戰(zhàn)狀態(tài)的監(jiān)督管理,對床位的數(shù)量、醫(yī)療機(jī)構(gòu)的使用面積等信息的掌控和了解。
醫(yī)療服務(wù)主題主要包括實(shí)時(shí)統(tǒng)計(jì)住院和門急診的情況,分析入出院、在院人數(shù),分析醫(yī)療費(fèi)用構(gòu)成,掌握和監(jiān)控醫(yī)療運(yùn)行情況、醫(yī)療安全情況、醫(yī)療質(zhì)量情況、醫(yī)療保障情況,監(jiān)管藥物和血液的使用情況,建立和完善醫(yī)學(xué)知識庫,輔助增強(qiáng)臨床路徑系統(tǒng),掌握醫(yī)療工作人員工作效率,考核醫(yī)療工作人員工作績效等。
公共衛(wèi)生主題主要包括居民建檔情況統(tǒng)計(jì)和監(jiān)督,居民健康情況統(tǒng)計(jì)和預(yù)警,各種慢性病的情況統(tǒng)計(jì)和預(yù)警,健康教育情況的統(tǒng)計(jì)和分析,居民營養(yǎng)狀況的統(tǒng)計(jì),婦女保健、幼兒保健、計(jì)劃生育情況的統(tǒng)計(jì)和監(jiān)控,傳染病、地方病、艾滋病、結(jié)核病、血吸蟲與寄生蟲病的發(fā)病情況、流行情況、治療情況的統(tǒng)計(jì)分析和監(jiān)督管理,農(nóng)村生活環(huán)境改善的情況統(tǒng)計(jì),健康危險(xiǎn)因素監(jiān)測,衛(wèi)生行政執(zhí)法狀況的監(jiān)督和管理,食品衛(wèi)生、職業(yè)衛(wèi)生、放射衛(wèi)生等領(lǐng)域被監(jiān)督單位的基本情況和監(jiān)督檢查的結(jié)果、處罰情況等。
藥物管理主題主要包括基本藥品入庫、出庫及使用情況等的統(tǒng)計(jì)和藥物知識庫的建立和完善。
參考文獻(xiàn)
[1]Inmon W H.Building the Data Warehouse[M].Third Edition.北京:機(jī)械工業(yè)出版社,2003.1-271
[2]張承江.醫(yī)學(xué)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘.北京:中國中醫(yī)藥出版社,2008
|