引用格式:許文靜,安寧,于重,等. 大規(guī)模異構(gòu)數(shù)據(jù)遷移的自適應(yīng)清洗與智能轉(zhuǎn)換框架[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(9):35-45.
引言
隨著數(shù)字化轉(zhuǎn)型進(jìn)程的加速推進(jìn),企業(yè)信息系統(tǒng)正經(jīng)歷從傳統(tǒng)集中式架構(gòu)向分布式架構(gòu)轉(zhuǎn)型,傳統(tǒng)集中式數(shù)據(jù)庫(kù)系統(tǒng)正逐漸被新型混合存儲(chǔ)架構(gòu)所替代[1]。
新舊系統(tǒng)數(shù)據(jù)遷移工作面臨規(guī)模性、異構(gòu)性、時(shí)效性三個(gè)方面技術(shù)挑戰(zhàn)[2]。規(guī)模性挑戰(zhàn)體現(xiàn)在海量歷史數(shù)據(jù)的遷移需求上。傳統(tǒng)遷移方法需要較長(zhǎng)停機(jī)時(shí)間,導(dǎo)致無(wú)法滿足業(yè)務(wù)系統(tǒng)高可用性的要求。異構(gòu)性挑戰(zhàn)體現(xiàn)在不同數(shù)據(jù)庫(kù)系統(tǒng)在數(shù)據(jù)模型和查詢語(yǔ)義等方面的差異。這種差異導(dǎo)致自動(dòng)化遷移過(guò)程中出現(xiàn)各種兼容性問(wèn)題,特別是在業(yè)務(wù)邏輯轉(zhuǎn)換方面。時(shí)效性挑戰(zhàn)體現(xiàn)在遷移過(guò)程中的數(shù)據(jù)一致性保障。由于缺乏有效的增量同步機(jī)制會(huì)導(dǎo)致業(yè)務(wù)狀態(tài)不一致,直接影響用戶體驗(yàn)和系統(tǒng)可靠性。這些挑戰(zhàn)共同形成數(shù)據(jù)遷移工作的主要難點(diǎn)是在有限的時(shí)間資源下,難以同時(shí)保證遷移效率、數(shù)據(jù)一致性和業(yè)務(wù)連續(xù)性。此外,現(xiàn)有解決方案在異構(gòu)模型轉(zhuǎn)換和智能化能力方面也存在明顯不足,導(dǎo)致成本居高不下。
基于規(guī)則的數(shù)據(jù)轉(zhuǎn)換方法、增量數(shù)據(jù)同步技術(shù)以及分布式事務(wù)管理方案為現(xiàn)有研究工作的主要技術(shù)方向。雖然這些方法在特定場(chǎng)景下取得了一定成效,但普遍存在明顯局限?;谝?guī)則的方法需要大量人工干預(yù),難以應(yīng)對(duì)復(fù)雜的模型轉(zhuǎn)換需求?;谡Z(yǔ)義映射的方法雖然提高了轉(zhuǎn)換精度,但面臨可擴(kuò)展性問(wèn)題。雖然機(jī)器學(xué)習(xí)方法為數(shù)據(jù)轉(zhuǎn)換提供新的思路,但在實(shí)際應(yīng)用中仍存在訓(xùn)練數(shù)據(jù)需求大、業(yè)務(wù)規(guī)則處理能力弱等缺陷[3]。
針對(duì)異構(gòu)性、規(guī)模性和時(shí)效性三大核心挑戰(zhàn),本文提出智能轉(zhuǎn)換框架 AUTOMIG。該框架的核心創(chuàng)新包括兩方面:一是基于圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network, GNN)的深度關(guān)聯(lián)發(fā)現(xiàn)機(jī)制,可自動(dòng)識(shí)別數(shù)據(jù)庫(kù)中未明確定義的復(fù)雜表間關(guān)聯(lián),減少對(duì)人工規(guī)則的依賴,為跨模型映射提供支持;二是面向大規(guī)模異構(gòu)遷移的雙模式協(xié)同執(zhí)行引擎,結(jié)合全量數(shù)據(jù)分塊并行處理與增量日志流式捕獲,在保障一致性的同時(shí)提升吞吐量、降低遷移時(shí)間。AUTOMIG 通過(guò)元數(shù)據(jù)驅(qū)動(dòng)的動(dòng)態(tài)適配、自解釋模式轉(zhuǎn)換與分布式執(zhí)行策略等技術(shù)實(shí)現(xiàn)上述機(jī)制。為驗(yàn)證其有效性,本文選取具有海量歷史數(shù)據(jù)、高頻更新、復(fù)雜網(wǎng)狀關(guān)聯(lián)和強(qiáng)領(lǐng)域規(guī)則的大規(guī)模教育培訓(xùn)系統(tǒng)進(jìn)行遷移測(cè)試,該場(chǎng)景能夠充分體現(xiàn)框架的普適性與智能性。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://www.ihrv.cn/resource/share/2000006705
作者信息:
許文靜,安寧,于重,劉珠慧
(國(guó)務(wù)院國(guó)有資產(chǎn)監(jiān)督管理委員會(huì)干部教育培訓(xùn)中心,北京100053)

