《電子技術應用》
您所在的位置:首頁 > 其他 > 业界动态 > 基于HIS的数据仓库建设与OLAP应用

基于HIS的数据仓库建设与OLAP应用

2008-11-21
作者:邓玫玲1, 邹永杰2, 邹立东3

  摘 要: 針對醫(yī)院信息管理系統(tǒng)(HIS)對輔助決策支持不足,提出以HIS為基礎建設面向主題的數(shù)據倉庫,建立基于聯(lián)機分析處理(OLAP) 的醫(yī)院決策支持系統(tǒng)" title="決策支持系統(tǒng)">決策支持系統(tǒng)。該系統(tǒng)采用數(shù)據倉庫總線架構" title="總線架構">總線架構,通過共享一致維度集成各個相對獨立的數(shù)據集市。在客戶端" title="客戶端">客戶端針對不同的用戶環(huán)境分別使用數(shù)據透視表服務和基于ADO MD的Web系統(tǒng),極大地提高了系統(tǒng)的靈活性。
  關鍵詞: OLAP; 數(shù)據倉庫; HIS; 數(shù)據總線

?

  醫(yī)院信息系統(tǒng)HIS(Hospital Information System)在醫(yī)療系統(tǒng)的廣泛應用,促進了醫(yī)療信息的電子化,使醫(yī)院數(shù)據庫的信息量不斷地膨脹。而這些寶貴的醫(yī)學信息資源對醫(yī)院的管理和醫(yī)療診斷都具有極高的價值。然而,許多醫(yī)院當初設計開發(fā)HIS時的主要目的僅在于滿足日常的業(yè)務處理,并沒有考慮到對數(shù)據的分析與數(shù)據的挖掘。HIS運行幾年以后,積累了大量的數(shù)據,數(shù)據項繁雜,收集的海量數(shù)據往往被沉淀,變成了難以利用的數(shù)據檔案[1]。
  基于數(shù)據倉庫的聯(lián)機分析處理OLAP(Online Analytical Processing)是使分析和管理人員能夠從多種角度對從原始數(shù)據中轉化出來的、能夠真正為用戶所理解并能真實反映企業(yè)數(shù)據特性的信息進行快速、一致、交互地存取,從而獲得對數(shù)據更深入了解的一類軟件技術[1]。通過建立面向主題的數(shù)據倉庫,使用聯(lián)機分析處理,可對醫(yī)療數(shù)據進行多方面的綜合分析,從而提高數(shù)據庫的利用水平,滿足醫(yī)院管理的需要。
1 數(shù)據倉庫與OLAP建模分析
1.1 醫(yī)院多維" title="多維">多維數(shù)據分析的體系結構

  多維數(shù)據分析的體系結構分成四個部分:數(shù)據源、數(shù)據中心、Web服務器(應用服務器) 和終端客戶應用。數(shù)據源是指醫(yī)院的各種業(yè)務系統(tǒng)的數(shù)據,如門診、住院、醫(yī)囑等費用(HIS) ,醫(yī)院影像信息(PACS) ,檢驗檢查信息(LIS、RIS) 等數(shù)據集。數(shù)據中心是根據醫(yī)院的需求確定的分析主題的集合,由各種數(shù)據集市集成的數(shù)據倉庫。Web服務器為多維數(shù)據分析提供兩種集成和發(fā)布方式,即B/S 結構的Web 集成方式和三層結構的應用集成方式。終端客戶應用是指多維數(shù)據分析的數(shù)據展現(xiàn)分析工具。整個體系結構如圖1所示。

?


1.2 醫(yī)院數(shù)據倉庫的結構
  醫(yī)院數(shù)據倉庫建設中存在一個關鍵的爭論就是如何規(guī)劃數(shù)據倉庫的結構。一種觀點認為應該采用“自頂向下”的整體方法,一次性地創(chuàng)建整個數(shù)據倉庫。這種方法不適應中國的醫(yī)療界現(xiàn)狀。大多數(shù)醫(yī)院并沒有配置完整的IT系統(tǒng),一般建設只有HIS,部分醫(yī)院可能會有PACS和LIS,這種現(xiàn)狀無法一次性完成整體創(chuàng)建。此外,這種方式也無法適應未來的業(yè)務調整。另一種是“自底向上”的觀點,認為可將各種無關的、迥異的數(shù)據集市裝配成企業(yè)級數(shù)據倉庫。這種方法比較適合醫(yī)院目前的現(xiàn)狀,這也是本文所采用的方法。但為避免最終數(shù)據的不兼容,使各個獨立數(shù)據集中的數(shù)據能集成為企業(yè)級的數(shù)據倉庫,需要共享一致性的維度。因此,本文采用了數(shù)據倉庫總線結構的形式。
  在數(shù)據倉庫的建設當中,要避免對構建角色和作用的混淆。在開發(fā)數(shù)據倉庫環(huán)境時,有四個相互分離的獨特構件需要考慮:操作型源系統(tǒng)、數(shù)據聚集環(huán)節(jié)、數(shù)據展示環(huán)節(jié)與數(shù)據存取工具[1]。數(shù)據倉庫的組成結構[2]如圖2所示。操作型源系統(tǒng)即HIS、PACS等系統(tǒng);數(shù)據聚集環(huán)節(jié)主要是清理建立一致維度,如病人維度、醫(yī)生維度、時間維度等;數(shù)據展示環(huán)節(jié)主要是確定面向主題的數(shù)據集市,如掛號業(yè)務和處方業(yè)務等,通過一致的維度集成各個數(shù)據集市;數(shù)據存取工具主要是各種分析報表和數(shù)據挖掘" title="數(shù)據挖掘">數(shù)據挖掘,如數(shù)據透視服務、Web查詢等。

?

1.3 維度建模技術的選擇策略
  維度建模是指用于數(shù)據建模的特殊規(guī)范,與之對應的是實體-關系(E-R)模型,它是經常應用于數(shù)據倉庫的一種邏輯設計技術。該技術試圖采用某種直觀的標準框架結構來表現(xiàn)數(shù)據,并且允許進行高性能存取。而實體-關系模型的目標在于去除各種冗余,努力達到第三范式的要求,避免各種操作異常。也正是因為這個原因,實體-關系模型不便于分析,它只適合于各種操作數(shù)據的跟蹤。維度模型的主要部件是事實表和維度表。在醫(yī)院進行多維數(shù)據分析發(fā)現(xiàn),醫(yī)院的各類人員正是從醫(yī)生、病人、藥品維度等理解業(yè)務的,這種模型充分反映了用戶眼里所認可的業(yè)務。
  多維模型有兩種基本架構:星型模式和雪花模式。在星型模式中,事實表整個模式的中心。事實表的字段通常由一群主鍵與一些分析匯總數(shù)值字段所組成。而這一群主鍵的值往往又依靠其四周相關的維表的主鍵值構成星型模型。從主鍵與外表鍵的依存關系來看,星型模式適用于關系型數(shù)據庫的環(huán)境中。在雪花模式中,多數(shù)經過雪花處理的表使數(shù)據展示變得復雜,而且雪花模型所提倡的維護容易性事實上也沒有什么實際意義,因為數(shù)據加載到展示環(huán)節(jié)的維度方案發(fā)生之前尚有一段很長的轉儲環(huán)節(jié)[2]。此外,因使用雪花維度而節(jié)省下來的少量磁盤空間也是無關緊要的,用2字節(jié)的編碼取代不到12 000行藥品維度表320字節(jié)的產品名稱,能夠節(jié)省不到0.3兆字節(jié)(12 000×18字節(jié))的磁盤空間。但事實表卻有幾百兆字節(jié)之大的磁盤空間,而且隨著事實表容量的增大,節(jié)省的磁盤空間實際上可以忽略不計。星型模式示意圖如圖3所示。

?

2 多維OLAP系統(tǒng)的設計與實現(xiàn)
  根據前面介紹的數(shù)據倉庫理論以及多維建模技術,本文具體規(guī)劃和設計了基于HIS的醫(yī)院多維聯(lián)機分析系統(tǒng),以門診為例概述實現(xiàn)過程(多維OLAP系統(tǒng)的實現(xiàn)目前沒有標準的過程方法),本文只是探討了各個實現(xiàn)的標準步驟。
2.1 確定業(yè)務過程
  業(yè)務處理過程是在機構中進行的,一般都由源數(shù)據收集系統(tǒng)提供支持的自然業(yè)務活動,如HIS中的掛號、處方、醫(yī)囑等。確定業(yè)務過程的關鍵在于分解和梳理。在醫(yī)院業(yè)務流程中,比如門診,應該將掛號和處方分離為兩個相關聯(lián)的業(yè)務過程,而不是作為一個整體。這種劃分一方面使業(yè)務的流程清晰,事實表的粒度更小,從而能夠應付未來各種層次上的分析;另一方面可以減少數(shù)據的冗余量。但分離也對維度的一致性提出了嚴格要求。為了以后能進行跨業(yè)務過程的分析,如分析醫(yī)生某個月所開單據的平均費用,共享維度必須滿足一致性條件才能進行集成。處方業(yè)務細化方案如圖4所示。

?


2.2 確立多維模型
  針對業(yè)務過程,要創(chuàng)建多維模型來反映這種業(yè)務??梢来畏譃槿齻€步驟:定義業(yè)務過程的粒度、選定多維模型的維度和確定多維模型的事實表。粒度定義意味著對各事實表行實際代表的內容給出明確的說明,這是建模的基準,它反映了事實表的實際意義。開發(fā)多維模型是一個迭代過程,可能要在業(yè)務用戶需求和選定的源文件細節(jié)之間反復切磋。要從用戶角度分析如何看待業(yè)務,應該用一組在每個度量上下文中取單一值而代表了所有可能情況的豐富描述,將事實表裝扮起來,用于形成每個事實表行的數(shù)字型事實。事實的確定可以通過回答“要對什么內容進行評測”這個問題來進行,明顯屬于不同粒度的事實必須放在單獨的事實表中。本系統(tǒng)選擇星型模式作為多維模型的架構。
2.3 多維模型的物理實現(xiàn)
  維度建模的最終方案成為物理設計和實現(xiàn)的起點。首先要確定各個維度和事實表的數(shù)據源。為保證數(shù)據集市的質量,數(shù)據進入數(shù)據集市前應進行細致而具體的數(shù)據轉換工作,數(shù)據的驗證和清理都在這個環(huán)節(jié)完成。建設數(shù)據倉庫的一大挑戰(zhàn)就是在構建數(shù)據倉庫之后的數(shù)據裝入工作。它一般占整個系統(tǒng)60%~80%的建設時間。在數(shù)據進入數(shù)據倉庫之前需要經過提取、校驗、清理、轉換和遷移這五個階段。完成數(shù)據裝入工作后,需針對數(shù)據倉庫的增長和演變做準備,確定數(shù)據倉庫維護和增長的方案。
2.4 多維模型的客戶端實現(xiàn)
  數(shù)據展示環(huán)節(jié)是進行數(shù)據組織、存儲并向用戶、報表撰寫和其他分析型應用提供查詢操作的場所。后臺數(shù)據聚集環(huán)節(jié)是用戶接觸不到的,這樣一來,展示環(huán)節(jié)就成為業(yè)務群體眼中的數(shù)據倉庫,它是業(yè)務群體通過數(shù)據存取工具所看到和接觸的一切[1]。
  在客戶端分析工具的選取上,系統(tǒng)依據不同使用環(huán)境而有不同的選擇。針對內部局域網環(huán)境下,安全性要求較低,而分析能力要求更強的情況,系統(tǒng)選用數(shù)據透視表服務和Excel工具,它具有豐富的圖形化表示;在Internet環(huán)境下,安全和保密性要求較高,系統(tǒng)則采用基于ADO MD的Web 應用程序作為分析工具。實踐表明,這種選擇帶來了安全性和靈活性。圖5是分析結果示意圖。

?


  本文針對醫(yī)院HIS系統(tǒng)的現(xiàn)狀,嘗試一種利用數(shù)據倉庫與OLAP技術對海量數(shù)據進行分析的新方案,以解決醫(yī)院管理的輔助決策問題。系統(tǒng)采用數(shù)據倉庫總線架構形式,保證了系統(tǒng)的可行性與可擴展性;在客戶端工具選擇上則根據應用環(huán)境的劃分策略,這是一種有益嘗試。為了更好地支持輔助決策,系統(tǒng)應該引進數(shù)據挖掘手段,這也是本系統(tǒng)下一步的目標之一。


參考文獻
[1] ?張文君,胡淑濤,張磊,等.OLAP技術在醫(yī)院決策支持系統(tǒng)中的應用. 醫(yī)院數(shù)字化, 2005,(12).
[2] ?KIMBALL R, ROSS M著.數(shù)據倉庫工具箱.譚明金譯.北京:電子工業(yè)出版社,2003.

本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。