《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 基于混合本體的保險公司數(shù)據(jù)集成研究
基于混合本體的保險公司數(shù)據(jù)集成研究
來源:微型機與應用2010年第16期
孫建光,劉 英
(大連海事大學 交通運輸管理學院,遼寧 大連116023)
摘要: 參照“Mediator/Wrapper”體系結構,利用混合本體的概念設計了基于本體的保險企業(yè)數(shù)據(jù)集成模型,以六元組的方式為例完成了對保險公司新型人壽保險信息的混合本體定義。利用本體技術通過領域建模描述該領域的概念及其相互關系, 可以有效地完成保險公司異構數(shù)據(jù)的集成和深層的數(shù)據(jù)共享,提供統(tǒng)一的信息查詢及用戶視圖, 進而提高保險公司管理支持和決策的可靠性和準確性。
Abstract:
Key words :

摘  要: 參照“Mediator/Wrapper”體系結構,利用混合本體的概念設計了基于本體的保險企業(yè)數(shù)據(jù)集成模型,以六元組的方式為例完成了對保險公司新型人壽保險信息的混合本體定義。利用本體技術通過領域建模描述該領域的概念及其相互關系, 可以有效地完成保險公司異構數(shù)據(jù)的集成和深層的數(shù)據(jù)共享,提供統(tǒng)一的信息查詢及用戶視圖, 進而提高保險公司管理支持和決策的可靠性和準確性。
關鍵詞: 異構數(shù)據(jù);語義異構;數(shù)據(jù)集成;本體;人壽保險

    過去二十多年來中國保險企業(yè)的信息化建設大多缺乏統(tǒng)籌規(guī)劃,造成了各種不同應用系統(tǒng)盲目上馬的現(xiàn)象。不同的業(yè)務系統(tǒng)使用不同的后臺數(shù)據(jù)庫,不同的系統(tǒng)開發(fā)人員對業(yè)務術語缺乏統(tǒng)一定義,這些問題引發(fā)了現(xiàn)今企業(yè)系統(tǒng)管理的巨大問題;同時由于大多數(shù)應用系統(tǒng)之間缺乏標準化的數(shù)據(jù)接口定義,因此不同的應用系統(tǒng)之間必然會成為彼此隔離的信息孤島,信息孤島是當前信息化建設中亟需解決的主要問題[1],徹底消除信息孤島,有效地集成現(xiàn)有及未來的業(yè)務應用系統(tǒng)的信息數(shù)據(jù)已成為當前信息化建設的重點工作。
1 保險公司數(shù)據(jù)集成研究
    數(shù)據(jù)量大和數(shù)據(jù)安全要求高是保險業(yè)的特點,中國保險業(yè)發(fā)展到今天,大多數(shù)人壽保險公司除具備核心業(yè)務系統(tǒng)之外,還建立了辦公自動化系統(tǒng)、財務系統(tǒng)、決策支持系統(tǒng)、數(shù)據(jù)倉庫以及相關的其他系統(tǒng),各種類型的數(shù)據(jù)在成倍增長。目前來看,主流保險公司的數(shù)據(jù)集中已告一段落,接下來的主要課題是數(shù)據(jù)的共享及集成利用。
    國外許多保險公司早在十幾年前就開始了數(shù)據(jù)集成技術的研究和運用,多數(shù)保險公司已完成了數(shù)據(jù)集成和整合技術對其個險系統(tǒng)、團險系統(tǒng)、銀行保險系統(tǒng)、年金系統(tǒng)和養(yǎng)老金系統(tǒng)等用戶及保單數(shù)據(jù)的集成[1]。
    在業(yè)界,數(shù)據(jù)集成的概念比較混亂,例如系統(tǒng)整合、應用整合、展現(xiàn)整合、存儲整合、數(shù)據(jù)庫整合、數(shù)據(jù)大集中等。這些不同的概念從不同的層次、不同的角度闡述了信息系統(tǒng)整合的內涵和外延。本文主要探討異構平臺下的數(shù)據(jù)集成。
    一般情況下數(shù)據(jù)的異構包括兩種,即語法異構和語義異構。語法異構包含不同的數(shù)據(jù)庫系統(tǒng)或不同數(shù)據(jù)結構,對于此類異構數(shù)據(jù)主要的集成方法是將異構數(shù)據(jù)轉換成XML數(shù)據(jù)模式。對于語義異構的數(shù)據(jù)集成可以利用本體技術通過領域建模描述該領域的概念及其相互關系。
2 本體的概念及建模
2.1 本體論的概念

    起源于哲學的本體論源于對萬物本質的追問,其派生于希臘語onto和logia,是一門研究事物根本的形而上的科學。本體論在哲學外的應用主要集中在信息技術和人工智能領域。伴隨著領域建模、知識工程和數(shù)據(jù)庫等技術的發(fā)展,在各領域中需要一個通用的概念描述,來說明在該領域本質上存在的對象、過程、屬性及相互依存關系等。
    1980年McCathy基于前人的理論提出“以邏輯概念為基礎的智能系統(tǒng)必須列出所有存在的事物并構建一個本體來描述我們的世界”,正式提出人工智能領域的本體論概念[2]。1993年Gruber提出第一個被IT領域廣泛接受的本體論正式定義“an ontology is an explicit specification of a conceptualization”[3]。1998年Guarino通過分析本體論與概念化之間的區(qū)別對Gruber的定義進行修訂并提出“域空間”的概念,在此基礎上通過在澄清本體、預定模型和概念化的基礎上得到了本體論的定義:“本體論是一個邏輯理論,用來說明一個正規(guī)詞匯表的預定含義。”[4]
2.2 本體建模
    在設計本體之前,首先要進行本體建模,也就是用形式化方法定義本體的語義,本體的建模是知識工程中實現(xiàn)知識重用和語義共享的基礎,到現(xiàn)在還沒有一種統(tǒng)一的形式化本體定義標準。
    研究者們根據(jù)研究與應用的不同背景給出了多種形式化的定義方式,六元組定義[5]是比較流行的一種。其形式化定義如下:
    定義1 資源庫本體是一個六元組:
    O={C,A,R,H,I,X}
其中,C是概念的集合;A是屬性的集合;R是關系的集合;H是概念層次;I是實例的集合;X是本體公理的集合。
3 基于本體的保險公司數(shù)據(jù)集成實施模型
3.1 基于本體的保險公司數(shù)據(jù)集成模型

    在大多數(shù)的大型企業(yè)里,異構數(shù)據(jù)的集成非常復雜且對企業(yè)相當重要。來自經(jīng)濟和法規(guī)方面的壓力使得這些企業(yè)更多地聚焦于如何獲取和組織這些數(shù)據(jù)以進行集成,關注集成數(shù)據(jù)的質量和數(shù)據(jù)定義的標準。為此,企業(yè)開始注重通過數(shù)據(jù)集成管理來建好企業(yè)的數(shù)據(jù)集成模型,一個典型的基于本體的企業(yè)數(shù)據(jù)集成模型如圖1所示。

    上述基于混合本體的保險公司數(shù)據(jù)集成模型參照“Mediator/Wrapper”[6]體系結構,運用了混合本體的概念設計,將mediator/wrapper虛擬整合機制整合到系統(tǒng)中,通過mediator和wrapper來整合。mediator和wrapper都是軟件組件,位于用戶和數(shù)據(jù)源之間,mediator服務于處理用戶提問和查詢結果的整合,wrapper則負責對信息源的連接和具體查詢。
    遵循mediator/wrapper整合機制可保持各個異構保險數(shù)據(jù)源的自治性,滿足局部的各種應用,并同時發(fā)揮mediator的作用,滿足全局性應用需求。在mediator中引入ontology等語義相關技術后,能夠有效解決知識整合、個性化服務等問題。使用這種機制的整合系統(tǒng)不需要在本地存儲大量資源,因而能夠適應網(wǎng)絡環(huán)境下信息源系統(tǒng)高度自治、數(shù)量多、更新頻繁等特點。
3.2 混合本體的構建
    舉例說明基于混合本體的信息集成技術,對于不同的數(shù)據(jù)源(如個險系統(tǒng)和銀行保險系統(tǒng)),將新型人壽保險信息按類型和銷售渠道分類存放,構造局部本體OI和OII結構分別如圖2、圖3所示。

    通過對數(shù)據(jù)源進行分析識別,找出兩個不同的數(shù)據(jù)源中重要的原語來定義本體。
    采用前面提到的六元組來完成OI本體的建模,由于系統(tǒng)比較簡單,只需要使用C、A、H三個元素,表示為:
    C={新型人壽保險,保險產品,代理人銷售人員,投連險,萬能險,分紅險};
    A={包含(代理人銷售,保險產品),歸類于(保險產品,新型人壽保險),銷售渠道(代理人銷售人員,新型人壽保險)};
    H={(投連險,保險產品),(萬能險,保險產品),(分紅險,保險產品),保險產品…}
    用OWL語言描述本體OI:
<owl: Class rdf:ID =“新型人壽保險”>
<owl: Class rdf:ID =“保險產品”>
<owl: Class rdf:ID =“代理人銷售人員”>
<owl: Class rdf:ID =“投連險”>
    - <rdfs: subClassOf>
        <owl: Class rdf:about =“#保險產品”/>
    </rdfs: subClassOf>
</owl: Class >
<owl: Class rdf:ID =“萬能險”>
    - <rdfs:subClassOf >
        <owl: Class rdf:about =“#保險產品”/>
    </ rdfs:subClassOf>
</owl: Class >
<owl: Class rdf:ID =“分紅險”>
    - <rdfs:subClassOf>
        <owl: Class rdf:about =“#保險產品”/>
    </rdfs:subClassOf>
</owl: Class>
<owl: ObjectProperty rdf:ID =“包含”>
    <rdfs: domain rdf:resource =“#代理人銷售人員”/>
    <rdfs: range rdf:resource =“#保險產品”/>
</owl: ObjectProperty>
<owl: ObjectProperty rdf:ID =“歸類于”>
    <rdfs: domain rdf: resource =“#保險產品”/>
    <rdfs: range rdf: resource =“#新型人壽保險”/>
</owl: ObjectProperty>
<owl: ObjectProperty rdf:ID =“銷售渠道”>
    <rdfs:domain rdf:resource =“#代理人銷售人員”/>
    <rdfs:range rdf:resource =“#新型人壽保險”/>
</owl: ObjectProperty>
    參照以上定義可以得到本體OII的描述。分析可得局部本體OI、OII存在以下問題:
    (1)使用不同的元語表示同一概念:
        保險類型→保險產品;
        代理人銷售人員→營銷人員;
        投連險→投資聯(lián)結保險
    (2)OI中包含了OII中不存在的概念“分紅險”。
    通過對類、屬性及其類間關系的集成合并局部本體,將OI,OII兩個本體聯(lián)系起來建立一個全局本體,然后在全局本體和局部本體之間建立映射,可得到如圖4所示的全局本體OG。

    共享詞匯集為:新型人壽保險, 保險產品,營銷人員,投連險,萬能險,分紅險。全局本體OG中的“保險產品”是由OI中的“保險產品”和OII中的“保險類型”間相等的概念合并得到。全局本體OG中的概念“分紅險”是由OI中的“分紅險”直接拷貝得到的。其相應的三元組為:
    C={新型人壽保險,保險產品,營銷人員,投連險,萬能險,分紅險};
    A={包含(營銷人員,保險產品),歸類于(保險產品,新型人壽保險),銷售渠道(營銷人員,新型人壽保險)};
    H={(投連險,保險產品),(萬能險,保險產品),(分紅險,保險產品),保險產品…}。
    全局本體在混合本體中的功能為:
    (1)在異構數(shù)據(jù)源和應用界面之間形成一個中介層,由于數(shù)據(jù)來源的復雜性,這些數(shù)據(jù)可能存放在不同的地理位置、不同的數(shù)據(jù)庫和不同的應用之中;
    (2)利用共享概念創(chuàng)建全局本體;
    (3)提供給用戶界面的綜合查詢一個概念以上的統(tǒng)一視圖,用戶通過提交一個基于全局本體之上的RDF查詢就能獲取所有相關數(shù)據(jù)源的數(shù)據(jù)以實現(xiàn)概念上的互操作。
    通過參照“Mediator/Wrapper”體系結構,利用混合本體的概念設計基于本體的保險企業(yè)數(shù)據(jù)集成模型,可以有效地完成保險公司數(shù)據(jù)大集中后的異構數(shù)據(jù)的集成和深層的數(shù)據(jù)共享,提供統(tǒng)一的信息查詢及用戶視圖,進而提高保險公司管理支持和決策的可靠性和準確性??梢钥吹酵ㄟ^成體系的語義分析完成保險公司通用的本體構建并對其進行評價 ,以及對映射規(guī)則及其推理引擎的完善等問題還需要進一步研究。

參考文獻
[1] RADCLIFF J.Integrate your data to create a single customer  view[OL].Gartner,2004.
[2] CARTHY J M.Circumscription-a form of non-monotonic reasoning[J].Artificial Intelligence,1980,5(13):27-39.
[3] GRUBER T R.Towards principles for the design of ontologies used for knowledge sharing.Stanford University,Tech  Rep:KSL-93-04,1993.
[4] 李善平,尹奇韡,胡玉杰,等.本體論研究綜述[J].計算機研究與發(fā)展,2004,41(7):1041-1052.
[5] HARRY R L,CHRISTOS H P.Elements of the theory of  computation(second edition)[M].Prentice Hall PTR Upper Saddle River,NJ,USA,1997.
[6] 卓國鋒,羅軍.基于Mediator/Wrapper信息集成的查詢優(yōu)化研究[J].計算機工程與應用,2007,43(12):159-161,242.

此內容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉載。