引言
文本到結構化查詢語言(Text-to-SQL,T2S)是自然語言問題和數據庫工具結合的重要研究領域,具體是指將自然語言轉化為計算機可執(zhí)行的SQL查詢語句的過程,它解決了從非結構化的自然語言和數據庫模式到結構化SQL的轉換等系列問題。T2S技術的核心在于從文本數據里自動識別專業(yè)術語、所屬領域、關聯關系及結構特征,進而構建相應映射體系。傳統(tǒng)映射構建模式高度依賴領域專家的人工規(guī)范操作,這種方式在知識體系持續(xù)迭代更新,或者領域專家資源匱乏的場景下,往往會暴露出耗時久、成本高、易出錯等諸多弊端。而隨著自然語言處理技術的迅猛發(fā)展,大語言模型與T2S技術的融合應用已成為新的發(fā)展趨勢。
傳統(tǒng)的T2S方法是基于規(guī)則模式的語法解析和模板匹配,需要大量人工標注或手動構建規(guī)則[1]。而大語言模型具有強大的語言理解和生成能力[2],能夠理解文本內容、提取關鍵信息、識別語義關系。利用大語言模型對大規(guī)模文本進行預訓練,可從中自動學習實體和關系以及數據庫模式,進而構建和更新從文本到SQL的映射關系,減輕領域專家在數據標注、規(guī)則構建階段的工作量。然而,當前Text-to-SQL研究的進展仍受限于數據集的質量與規(guī)模[3]?,F有主流數據集如Spider、WikiSQL、Bird雖在多領域覆蓋與復雜查詢標注上取得一定成果,但仍存在領域分布不均衡、真實業(yè)務場景模擬不足、標注成本高昂等問題[4],難以滿足實際應用中多樣化的SQL查詢需求。與此同時,合成數據技術憑借其高效、低成本的優(yōu)勢展現出巨大潛力[5],特別是訓練數據數量匱乏條件下,在數據增強與模型泛化能力提升方面表現突出。
綜上,本文采用國產達夢數據庫(DM)開展數據集設計,達夢數據庫作為國產數據庫系統(tǒng)之一,在軍事、政務等關鍵領域逐步替代Oracle等國外數據庫。本文針對“執(zhí)勤”業(yè)務場景,設計國產數據庫系統(tǒng)并構建專用數據集,該數據集包含300條高質量標注樣本,主要針對軍事典型業(yè)務查詢場景。達夢數據庫的模式權限設計參考《達夢數據庫技術文檔》[6]。同時,采用基于合成數據方法的大語言模型兩階段訓練技術,通過對比實驗評估合成數據與真實數據的分布一致性及對模型性能的提升效果,探索大語言模型在國產數據庫環(huán)境下的適配方法,為數據保障業(yè)務提供技術支撐。實驗結果表明,本數據集不僅能有效補充現有數據資源的不足,且通過合成數據驗證的方式,為TexttoSQL數據集的構建與評估提供了新的技術路徑。
本文詳細內容請下載:
http://www.ihrv.cn/resource/share/2000006862
作者信息:
李國深1,劉瑩君2,于莉娜2,紀濤2,張航1,吳繼冰1
(1.大數據與決策國家級重點實驗室,湖南長沙410073;
2.智能空間信息國家級重點實驗室,北京100029)

