《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 面向國產數據庫的Text-to-SQL數據集設計
面向國產數據庫的Text-to-SQL數據集設計
網絡安全與數據治理
李國深1,劉瑩君2,于莉娜2,紀濤2,張航1,吳繼冰1
1.大數據與決策國家級重點實驗室;2.智能空間信息國家級重點實驗室
摘要: 隨著智能技術的發(fā)展,數據庫數量和規(guī)模激增,傳統(tǒng)數據存取技術在應對海量數據處理需求時存在耗時長、效率低等問題,Text-to-SQL技術成為銜接用戶需求和數據庫存取的重要橋梁。然而,現有技術通常在開源非國產數據集上訓練,在實際應用中存在數據庫操作語言不一致、領域知識欠缺和可靠性差等問題。為此,結合數據庫領域軟硬件國產化趨勢,設計面向國產數據庫的Text-to-SQL數據集,采用基于合成數據方法的大語言模型兩階段訓練技術,提出一種基于大語言模型的國產數據庫Text-to-SQL方法,通過實驗對方法的有效性進行了充分驗證。
中圖分類號:TP311.138文獻標識碼:ADOI:10.19358/j.issn.2097-1788.2025.11.009引用格式:李國深,劉瑩君,于莉娜,等. 面向國產數據庫的Text-to-SQL數據集設計[J].網絡安全與數據治理,2025,44(11):52-59.
The design of Text-to-SQL datasets for domestic databases
Li Guoshen1, Liu Yingjun2, Yu Lina 2, Ji Tao2, Zhang Hang1, Wu Jibing1
1. National Key Laboratory of Big Data and Decision; 2. National Key Laboratory of Intelligent Geospatial Information
Abstract: With the development of intelligent technology, the number and scale of databases have surged. Traditional data access technologies face problems such as long-time consumption and low efficiency when meeting the needs of massive data processing. Text-to-SQL technology has thus become an important bridge connecting user needs and database access. However, existing technologies are usually trained on open-source non-domestic datasets, and their application is plagued by issues like inconsistent database operation languages, lack of domain knowledge, and poor reliability. To address this, this paper, in line with the localization trend of software and hardware in the database field, designs a Text-to-SQL dataset for domestic databases, adopts a two-stage training technology for large language models based on synthetic data methods, proposes a Text-to-SQL method for domestic databases based on large language models, and fully verifies the effectiveness of the method through experiments.
Key words : fine-tuning of large language models; synthetic dataset; preference learning; domestic databas

引言

文本到結構化查詢語言(Text-to-SQL,T2S)是自然語言問題和數據庫工具結合的重要研究領域,具體是指將自然語言轉化為計算機可執(zhí)行的SQL查詢語句的過程,它解決了從非結構化的自然語言和數據庫模式到結構化SQL的轉換等系列問題。T2S技術的核心在于從文本數據里自動識別專業(yè)術語、所屬領域、關聯關系及結構特征,進而構建相應映射體系。傳統(tǒng)映射構建模式高度依賴領域專家的人工規(guī)范操作,這種方式在知識體系持續(xù)迭代更新,或者領域專家資源匱乏的場景下,往往會暴露出耗時久、成本高、易出錯等諸多弊端。而隨著自然語言處理技術的迅猛發(fā)展,大語言模型與T2S技術的融合應用已成為新的發(fā)展趨勢。

傳統(tǒng)的T2S方法是基于規(guī)則模式的語法解析和模板匹配,需要大量人工標注或手動構建規(guī)則[1]。而大語言模型具有強大的語言理解和生成能力[2],能夠理解文本內容、提取關鍵信息、識別語義關系。利用大語言模型對大規(guī)模文本進行預訓練,可從中自動學習實體和關系以及數據庫模式,進而構建和更新從文本到SQL的映射關系,減輕領域專家在數據標注、規(guī)則構建階段的工作量。然而,當前Text-to-SQL研究的進展仍受限于數據集的質量與規(guī)模[3]?,F有主流數據集如Spider、WikiSQL、Bird雖在多領域覆蓋與復雜查詢標注上取得一定成果,但仍存在領域分布不均衡、真實業(yè)務場景模擬不足、標注成本高昂等問題[4],難以滿足實際應用中多樣化的SQL查詢需求。與此同時,合成數據技術憑借其高效、低成本的優(yōu)勢展現出巨大潛力[5],特別是訓練數據數量匱乏條件下,在數據增強與模型泛化能力提升方面表現突出。

綜上,本文采用國產達夢數據庫(DM)開展數據集設計,達夢數據庫作為國產數據庫系統(tǒng)之一,在軍事、政務等關鍵領域逐步替代Oracle等國外數據庫。本文針對“執(zhí)勤”業(yè)務場景,設計國產數據庫系統(tǒng)并構建專用數據集,該數據集包含300條高質量標注樣本,主要針對軍事典型業(yè)務查詢場景。達夢數據庫的模式權限設計參考《達夢數據庫技術文檔》[6]。同時,采用基于合成數據方法的大語言模型兩階段訓練技術,通過對比實驗評估合成數據與真實數據的分布一致性及對模型性能的提升效果,探索大語言模型在國產數據庫環(huán)境下的適配方法,為數據保障業(yè)務提供技術支撐。實驗結果表明,本數據集不僅能有效補充現有數據資源的不足,且通過合成數據驗證的方式,為TexttoSQL數據集的構建與評估提供了新的技術路徑。


本文詳細內容請下載:

http://www.ihrv.cn/resource/share/2000006862


作者信息:

李國深1,劉瑩君2,于莉娜2,紀濤2,張航1,吳繼冰1

(1.大數據與決策國家級重點實驗室,湖南長沙410073;

2.智能空間信息國家級重點實驗室,北京100029)


subscribe.jpg

此內容為AET網站原創(chuàng),未經授權禁止轉載。