轉載本文需注明出處違者必究。
01數(shù)據中心發(fā)展的趨勢
信息技術應用創(chuàng)新發(fā)展是目前的一項國家戰(zhàn)略,也是當今形勢下國家經濟發(fā)展的新動能。發(fā)展信創(chuàng)是為了近年來保障核心技術自主可控解決安全的本質問題,目前,國家在全國范圍內各省、自治區(qū)、直轄市均建有大型或超大型數(shù)據中心。數(shù)據中心雖然用電量占全社會用電量的比例接近1%,卻拉動了36.2%的國內生產總值,數(shù)據中心建設成為經濟發(fā)展的新支點。
數(shù)據中心的建設是需要通過數(shù)據交換將各個地方的數(shù)據信息收集起來,解決數(shù)據的互通問題。這里面數(shù)據中心的核心任務是要將互相關聯(lián)的分布式異構數(shù)據源集成到一起。使用戶能夠以透明的方式訪問這些數(shù)據源達到數(shù)據共享的目的。
02數(shù)據中心與數(shù)據交換
隨著社會的發(fā)展科技的進步,近些年來政府和企業(yè)部門都已經建立起自己的業(yè)務系統(tǒng),并在日常業(yè)務處理中發(fā)揮著重要的作用。由于受各種條件的限制,在建設初期各部門獨立建設自己的系統(tǒng),導致信息孤島現(xiàn)象大量存在,嚴重制約了數(shù)字化業(yè)務的進一步發(fā)展。當今社會已經進入了數(shù)據驅動創(chuàng)新的發(fā)展階段,而大數(shù)據中心是支撐數(shù)字經濟發(fā)展的關鍵,在數(shù)據經濟時代,計算力已經與水、電一樣成為最基本的社會基礎設施之一,而大數(shù)據中心是集中存放計算、存儲以及網絡設備的場所,是承載計算力的關鍵基礎設施。
數(shù)據中心的建設離不開數(shù)據,數(shù)據交換平臺是數(shù)據中心與上下級部門或單位之間獲取數(shù)據的交換機。數(shù)據交換平臺是把不同來源、不同物理存儲中的數(shù)據經過抽取、轉換、清洗并將數(shù)據存儲到不同的目標數(shù)據源的數(shù)據處理過程。數(shù)據交換中主要包含了三類數(shù)據的交換包括文件交換、接口交換、ETL交換。根據交換業(yè)務的不同采用不同的方式進行交換。
文件交換這里指的是二進制形式的文件比如圖片、電影、壓縮文件等數(shù)據類型,通常是以文件方式進行的存儲。這種類型的數(shù)據通常適合采用文件交換,文件交換一般是不會解析文件的內容,采用拷貝的方式將文件復制到目標存儲中進行數(shù)據交換。
接口交換一般情況是數(shù)據來源是以http、webservice、restful形式發(fā)布的數(shù)據,這種類型的數(shù)據需要有請求對數(shù)據進行訪問從而獲取到數(shù)據,這種數(shù)據進行交換如果目標也是接口,則采用ESB總線的方式將來源接口和目標接口進行匹配交換。如果這種類型的數(shù)據進行數(shù)據交換的目標是其他類型的數(shù)據形式,比如:可以通過訪問來源接口的數(shù)據通過數(shù)據轉換存儲成文件數(shù)據,也可以存儲到數(shù)據庫中。這種情況下可采用ETL的方式進行交換。
ETL交換能夠將大部分結構化存儲的數(shù)據進行抽取,包括數(shù)據庫、excel、txt、xml等結構化存儲可解析的數(shù)據,ETL交換時是將數(shù)據源中的數(shù)據以行為單位,列為組成單元的形式解析出來,提供多種過濾清洗的組件對抽取出來的數(shù)據進行清洗轉換,最終將數(shù)據存放到目標存儲中。
這些看似簡單的過程,其實在真正實施數(shù)據中心建設的時候有很多工作要做。下面以數(shù)據中心建設為例進行講解。
03數(shù)據交換組織建設
在進行數(shù)據中心建設前需要考慮保障數(shù)據接入和數(shù)據交換工作的順利推進會先進行數(shù)據交換規(guī)范的制定。數(shù)據交換規(guī)范,明確數(shù)據交換平臺管理流程、各環(huán)節(jié)任務、參與者的職責以及各環(huán)節(jié)的輸入、輸出和產出物。
數(shù)據交換規(guī)范涵蓋數(shù)據服務定義、實現(xiàn)、上線、運行、變更和退役的過程,數(shù)據交換管理規(guī)范從這六個階段進行管理每個階段的主要工作內容、參與角色及其工作職責,以及需要遵循的規(guī)范和原則,進而保障數(shù)據交換管理活動都在規(guī)范的管理下受控。為了落實規(guī)范的執(zhí)行由上級單位牽頭,下級單位和相關廠商配合進行組織建設,成立數(shù)據交換的管理層形成數(shù)據交換管理組。主要負責數(shù)據交換規(guī)范的制定和對執(zhí)行情況的監(jiān)督;操作層由數(shù)據交換平臺的數(shù)據管理員、開發(fā)人員、運維人員和外圍系統(tǒng)相關人員組成,主要負責交換平臺相關的技術操作工作。
數(shù)據交換管理組是數(shù)據交換規(guī)范的制定者、監(jiān)督者,主要負責數(shù)據交換規(guī)范的制定、對數(shù)據交換執(zhí)行過程進行管理和監(jiān)控。推動數(shù)據交換管理活動,確保管理體系和系統(tǒng)工具的執(zhí)行,定期了解數(shù)據交換作業(yè)的運行情況,評估數(shù)據交換和服務管理的績效,保證數(shù)據交換管理最終實現(xiàn)業(yè)務目標。
數(shù)據管理員是企業(yè)數(shù)據資源的管理人員,主要負責數(shù)據資源的注冊和維護,相關權限的審批,及相關評審工作。
開發(fā)人員負責數(shù)據資源交換任務的開發(fā)工作。
運維人員主要負責數(shù)據交換平臺的安裝部署以及日常的平臺運行狀態(tài)的監(jiān)控,保證平臺穩(wěn)定運行。
其他相關人員包括數(shù)據交換的各參與方人員,主要包括數(shù)據提供者和數(shù)據消費者,相關業(yè)務應用開發(fā)和管理人員。
建設管理工作涉及不同人和角色之間的管理和相互配合,這需要在許多不同的利益相關者之間達成共識。因此在數(shù)據交換平臺建設中成立專業(yè)化的項目管理組織是一項重要工作。
數(shù)據交換管理可以有效地保證項目管理組織目標的實現(xiàn),有效地應付項目環(huán)境的變化,滿足項目組織成員的各種需求,使其具有凝聚力、組織力和向心力,以保證項目組織系統(tǒng)正常運轉,確保數(shù)據交換平臺建設工作順利完成。組織成立后需要進行相關管理規(guī)范和技術規(guī)范的制定,可根據自身企業(yè)的實際情況來制定這里就不展開討論。
04數(shù)據交換在數(shù)據中心建設
數(shù)據交換平臺是數(shù)據中心與其它應用系統(tǒng)溝通的橋梁,是進行數(shù)據交換的樞紐站。數(shù)據交換平臺負責從各個業(yè)務系統(tǒng)采集數(shù)據,對數(shù)據進行清洗與整合,按照數(shù)據中心建設標準規(guī)范化原始數(shù)據,最終形成各種主題庫。
數(shù)據中心建設包括這幾個步驟:
1、數(shù)據源:數(shù)據的來源,一般是由不同部門的各類來源數(shù)據,包括文件、數(shù)據庫、Http服務等2、數(shù)據匯聚:存放的是接入的原始數(shù)據。經過ETL之后裝入本層,大多是按照源頭業(yè)務系統(tǒng)的分類方式而分類的。為了考慮后續(xù)可能追溯數(shù)據為題,因此對這一層不建議做過多的數(shù)據清洗工作,原封不動接入源數(shù)據即可,至于數(shù)據的去噪,去重,異常值處理等過程可以放在后面的DW層3、數(shù)據處理:是對匯聚的原始數(shù)據進行初步的ETL處理,實現(xiàn)對數(shù)據的清洗、加工,補全各類信息(包括編碼字典解釋等),這個步驟的目的是實現(xiàn)數(shù)據的規(guī)范化,這里的數(shù)據也是落地存儲物理庫,作為抽取中間庫DWD層4、數(shù)據融合:是對規(guī)范化的原始數(shù)據進行融合處理,建立數(shù)據之間的關系模型。數(shù)據融合主要是按照主題或業(yè)務領域進行數(shù)據建模。5、數(shù)據集市:是對領域模型數(shù)據進行匯總統(tǒng)計分析,將統(tǒng)計分析的結果進行存儲,可以理解為報表決策數(shù)據所使用的統(tǒng)計表,結合大數(shù)據分析將分析結果在集市層存儲,為上層應用提供統(tǒng)計數(shù)據。
05數(shù)據交換平臺建設架構
數(shù)據中心離不開數(shù)據,數(shù)據中心的數(shù)據是將各個分部門中的數(shù)據通過數(shù)據交換到數(shù)據中心的,在分部門和數(shù)據中心進行數(shù)據交換時會建設數(shù)據交換的前置區(qū)進行數(shù)據隔離保障數(shù)據的安全。前置交換節(jié)點通過數(shù)據文件的方式和數(shù)據中心交換數(shù)據。前置機位于廣域網,通過Internet和交換中心相連。在和數(shù)據中心交換時只交換數(shù)據中心所需要的數(shù)據并不會將所有的業(yè)務數(shù)據都交換到數(shù)據中心。前置節(jié)點中會部署一套前置交換系統(tǒng)用于將業(yè)務系統(tǒng)中的數(shù)據交換到前置區(qū)中,數(shù)據中心會定期從前置區(qū)的固定目錄中獲取數(shù)據中心所需要的數(shù)據進行數(shù)據交換,交換采用安全加密的協(xié)議保障數(shù)據的安全。在數(shù)據交換到數(shù)據中心時會先進行數(shù)據質量檢核確保數(shù)據是符合規(guī)范的,如果檢核通過則由數(shù)據中心中的數(shù)據交換系統(tǒng)將數(shù)據存入中心庫,如果沒有通過檢核則會通知相關部門進行數(shù)據修正,解決數(shù)據問題后在進行數(shù)據交換。
數(shù)據同步到數(shù)據中心后就由數(shù)據中心的數(shù)據交換系統(tǒng)進行數(shù)據匯聚、數(shù)據處理、數(shù)據融合和數(shù)據集市的操作。以前的數(shù)據中心建設只是將數(shù)據集中管理起來進行了一些基本的數(shù)據統(tǒng)計和分析,沒有充分的發(fā)揮數(shù)據的價值。使得數(shù)據中心的建設又變成了一個新的數(shù)據孤島。隨著近些年來數(shù)據開放共享的呼聲越來越高,數(shù)據共享成為了數(shù)據中心建設的一個重要組成。
數(shù)據共享能夠以多種方式提供數(shù)據,用戶可根據自己的需要在數(shù)據交換平臺上進行數(shù)據的申請或訂閱獲取到想要的數(shù)據,數(shù)據管理方也能夠通過數(shù)據交換平臺對數(shù)據共享進行開放和管理。通過數(shù)據共享能夠將數(shù)據進行融合形成許多建立在數(shù)據共享開放之上的應用如雨后春筍一般迅速實現(xiàn)。
06數(shù)據交換功能
數(shù)據交換平臺的是實現(xiàn)數(shù)據中心建設重要的組成,數(shù)據交換平臺的功能主要有以下幾部分組成:
資源目錄管理:基于資源目錄管理規(guī)范,采用分級、分域的方式對需要交換的數(shù)據元數(shù)據進行管理,向數(shù)據交換開發(fā)人員、數(shù)據管理人員以目錄的形式提供元數(shù)據的展示。數(shù)據服務目錄管理主要功能包含:元數(shù)據管理、分類管理、目錄編目、目錄管理和目錄服務。
服務接口管理:數(shù)據交換平臺中提供了服務接口管理功能,通過分層的方法進行可視化的服務管理,像服務操作注釋,服務操作參數(shù),服務操作返回值等都提供相應的用戶界面。服務接口管理主要功能包含:接口注冊、接口管理、接口構建、服務監(jiān)控、調用關系管理和服務接口統(tǒng)計。
數(shù)據交換管理:支持服務接口開發(fā)、etl數(shù)據抽取以及文件傳輸數(shù)據交換的開發(fā)、運行和管理,主要功能包含:交換橋接、前置交換、數(shù)據處理、文件傳輸和數(shù)據統(tǒng)計。
系統(tǒng)支撐功能:支持按照分類、主題、應用等多個層次對數(shù)據進行分類管理、識別、定位和共享,開發(fā)完成的數(shù)據服務消費方可以平臺中瀏覽查看,如果消費方需要使用數(shù)據服務能夠在平臺中發(fā)起申請,審批通過后根據平臺中提供的服務信息使用數(shù)據。主要功能包含:主題管理、信息訂閱、數(shù)據審批和申請記錄。
系統(tǒng)管理與監(jiān)控:支持按照角色、菜單劃分系統(tǒng)功能權限,能夠監(jiān)控服務接口、etl數(shù)據抽取以及文件傳輸交換的運行進行統(tǒng)計和監(jiān)控。主要功能包含組織管理、用戶管理、角色管理、安全管理和平臺監(jiān)控。
6.1資源目錄
資源目錄體系與交換體系兩者密不可分。事實上,資源目錄的構建過程是對信息資源進行編目和分類的一體化過程,同時也是依托技術構建信息資源管理體系的過程。建成目錄體系和交換體系的同時,將形成內部信息資源的管理架構。資源目錄是數(shù)據交換的基礎,能夠為數(shù)據交換提供所需要的元數(shù)據信息。同時還是一套為信息資源檢索、定位和共享的應用服務體系。
根據相關標準定義,資源目錄可以分為部門資源目錄、基礎資源目錄和主題資源目錄,從實踐中來看,梳理部門的資源目錄是數(shù)據交換平臺的切入點。但由于下級部門眾多,各自對數(shù)據中心的期望和要求不一致,短期內數(shù)據中心的建設也不能支撐下級部門的業(yè)務,因此上報數(shù)據不積極,再加上每個下級部門都建設了數(shù)套業(yè)務系統(tǒng),作為數(shù)據交換平臺的實施方,也難以對委辦局提出清晰、明確的數(shù)據需求。需要由數(shù)據交換管理組牽頭進行資源目錄梳理,也就是將要求各下級部門或單位、按照職責梳理其應該有的數(shù)據目錄和數(shù)據項,后續(xù)再通過資源目錄來接入各部門的數(shù)據,形成部門庫,進而建設基礎庫和主題庫,形成主題數(shù)據,去支撐各類上層應用,包括大屏分析、主題分析,甚至政務服務事項、一網通辦等。
利用資源目錄管理系統(tǒng),可以通過在線錄入資源目錄,以信息化手段減輕資源目錄梳理的工作,通過技術手段提高梳理的效率。整個過程就像是開一個數(shù)據超市需要聯(lián)系各種供貨渠道,管理各個供貨渠道的供貨關系,最終形成一個貨物目錄放到貨架上。
6.2服務與接口
近些年來,隨著數(shù)據服務化的意識加強越來越多新上線的系統(tǒng)已經提供了相關數(shù)據服務的接口,這時服務接口的數(shù)據交換管理采用SOA松耦合的思想來進行數(shù)據交換,通過靈活的服務接口和Adapter,方便SOA應用和遺留應用的集成,這種松耦合、有效靈活的架構提供了更好的擴展性。
要點說明:
調用/推送:將服務注冊到數(shù)據交換平臺,可以主動調用接口拉取數(shù)據。下級部門如有服務集成需求,可以直接使用交換平臺提供的接口訪問服務。
數(shù)據寫入方式:根據數(shù)據交換邏輯的不同,可以直接寫入利用資源目錄管理系統(tǒng),可以通過在線錄入資源目錄,以信息化手段減輕資源目錄梳理的工作,通過技術手段提高梳理的效率。數(shù)據中心再共享給各個系統(tǒng),也可以直接把數(shù)據傳遞給業(yè)務系統(tǒng)。
松耦合的服務配置:服務配置過程中會對ip和端口、服務的URI、服務邏輯編排、響應報文處理等環(huán)節(jié)進行單獨配置,所以對于調用方來說,服務是透明的是非侵入的。
6.3交換管理
這里將交換管理分為兩部分一部分是ETL的交換,另一部分是文件傳輸。
ETL的交換用于大批量非實時低頻度的數(shù)據交換。不只是數(shù)據文件,包括ETL抽取上來的結構化數(shù)據、數(shù)據庫抽取上來的增量日志,都先生成文件放在文件緩存區(qū),再通過批量數(shù)據管道進行傳輸。
要點說明:
三種類型數(shù)據的采集:各類數(shù)據文件、ETL抽取并經過加工的結構化數(shù)據、數(shù)據庫獲取的增量日志。
數(shù)據傳輸鏈路:實現(xiàn)應用單位前置交換信息庫與交換中心之間的信息處理及穩(wěn)定可靠、不間斷地信息傳遞。
ETL邏輯一次性配置:ETL文件在傳輸?shù)那昂蠖加刑幚磉壿嫞@些邏輯可以在交換中心單點配置,并自動同步到相關前置節(jié)點。
三種觸發(fā)方式:可以通過定時任務調度、數(shù)據偵測、任務監(jiān)控。數(shù)據庫新生的日志可以通過數(shù)據偵測感知并準實時傳送。
文件傳輸交換用于實現(xiàn)文件形式的數(shù)據傳輸。實現(xiàn)集團總部與成員單位之間的文件數(shù)據傳輸,對于大的文件,會自動對文件進行智能分割傳輸,支持斷點續(xù)傳、加密壓縮傳輸、文件并發(fā)傳輸以及傳輸流量控制。
要點說明:
文件傳輸:采用一對一、一對多的方式進行文件傳輸,用戶通過配置發(fā)送節(jié)點及發(fā)送目錄、接收節(jié)點及接收目錄,并配以調度策略,F(xiàn)TA發(fā)送節(jié)點會自動定期檢測發(fā)送目錄。
斷點續(xù)傳:在不穩(wěn)定網絡狀態(tài)下保證數(shù)據的可靠高效傳輸。
加密壓縮傳輸:系統(tǒng)可對發(fā)送數(shù)據進行加密,目的節(jié)點接收到加密的數(shù)據后,會對接收數(shù)據自動進行解密。提供的壓縮機制,以便用戶進行大容量文件傳送時提高效率。
并發(fā)傳輸:支持并發(fā)傳輸,每個傳輸節(jié)點可以同時并發(fā)傳輸多個文件。
6.4數(shù)據使用
以前的數(shù)據中心建設是有什么數(shù)據就只能給什么數(shù)據,現(xiàn)在新一代的數(shù)據中心建設是想要什么數(shù)據就能獲取到想要的數(shù)據。而能夠做到這些需求的背后是數(shù)據交換技術的發(fā)展和進步。通過建立共享目錄服務等共享數(shù)據庫,以手工錄入或導入導出等方式,將數(shù)據、文檔等存入共享庫中,數(shù)據交換平臺實現(xiàn)對所需信息的快速服務發(fā)布以及便捷檢索和查詢。
發(fā)布后的服務能夠提供給用戶進行申請或訂閱,數(shù)據信息訂閱分為申請資源和訂閱資源兩種方式:
申請資源:提供消費方通過資源申請方式申請主題分類資源樹中的數(shù)據實體資源,相對平臺而言“拉”的方式,消費方申請資源后,向消費方開放Web服務信息、表格下載方式,由消費方主動獲取數(shù)據資源。
訂閱資源:提供消費方通過資源訂閱方式申請主題分類資源樹中的數(shù)據實體資源,相對平臺而言“推”的方式,消費方訂閱資源后,向平臺提供數(shù)據庫、文件目錄地址與連接方式,由平臺向消費方推送數(shù)據資源。
用戶的申請或訂閱是需要通過審批才能獲取到數(shù)據資源的,數(shù)據管理方能夠在數(shù)據交換平臺中對用戶所使用數(shù)據的情況進行監(jiān)控。通過數(shù)據交換平臺來實現(xiàn)數(shù)據共享和路由。這種連接方式實現(xiàn)了數(shù)據的無縫交換和共享訪問,保證了各業(yè)務系統(tǒng)的有效協(xié)同,同時又能保證各應用系統(tǒng)的相互獨立性和低耦合性,從整體上提高了系統(tǒng)運作效率和安全性。
用戶在使用數(shù)據時就像進入了數(shù)據超市一樣,數(shù)據共享平臺里共享出來的各種主題就像是數(shù)據的貨架,貨架上擺滿了各種數(shù)據,用戶可以隨意挑選。在找到自己想要的數(shù)據后,只要發(fā)出申請或訂閱,通過審批后就能夠拿到所需的數(shù)據。
6.5系統(tǒng)管理與監(jiān)控
在系統(tǒng)管理和監(jiān)控中數(shù)據管理方能夠分配資源的使用權限,監(jiān)控消費方對數(shù)據交換和數(shù)據共享的使用情況。
數(shù)據交換平臺支持告警監(jiān)控,在平臺數(shù)據交換服務執(zhí)行異常時,能夠觸發(fā)相關的告警服務,用戶可自定義服務監(jiān)控指標與告警范圍,支持郵件、短信等告警方式。前面我們說了,提供的共享服務就像是開一個數(shù)據超市,那么數(shù)據交換平臺的監(jiān)控就像是超市中裝的監(jiān)控攝像頭,能夠監(jiān)控數(shù)據交換的一舉一動。保障數(shù)據資產的安全。
07總結
普元的數(shù)據交換平融合了數(shù)據中心以及數(shù)據中臺的建設思路,結合了信創(chuàng)對國產化以及自主可控的要求,能夠適配國產化操作系統(tǒng)和數(shù)據庫的環(huán)境,數(shù)據交換平臺能夠將上下游的數(shù)據整合到數(shù)據中心,形成資源目錄中的各種業(yè)務主題庫。通過資源目錄對數(shù)據進行共享,打破數(shù)據孤島,實現(xiàn)各級部門間的數(shù)據資源共享、互聯(lián)互通,為數(shù)據中心的建設夯實基礎。
關于作者:光芒,普元項目經理,十多年的IT從業(yè)經驗,一直專注于企業(yè)數(shù)據交換和數(shù)據管理的工作。曾主持參與了Primeton DI和Primeton ESB的產品研發(fā)工作,致力于自服務的數(shù)據共享和數(shù)據交換研究,在數(shù)據治理領域不斷探索和研發(fā)。