中文引用格式: 安棟,王媛媛,宋寧寧,等. 強化學(xué)習(xí)評估指標的系統(tǒng)性分析與優(yōu)化研究[J]. 電子技術(shù)應(yīng)用,2025,51(10):17-23.
英文引用格式: An Dong,Wang Yuanyuan,Song Ningning,et al. Systematic analysis and optimization research on reinforcement learning evaluation metrics[J]. Application of Electronic Technique,2025,51(10):17-23.
引言
強化學(xué)習(xí)作為機器學(xué)習(xí)的重要分支,通過智能體與環(huán)境的交互學(xué)習(xí)最優(yōu)策略,已在游戲智能[1-2]、機器人控制[3-4]、自動駕駛[5]、生物醫(yī)療[6]等領(lǐng)域取得了顯著成果。強化學(xué)習(xí)越來越被重視,圖1通過每年發(fā)表論文數(shù)量展示強化學(xué)習(xí)領(lǐng)域的增長趨勢(數(shù)據(jù)來自 Web of Science?)。

圖1 強化學(xué)習(xí)領(lǐng)域論文發(fā)表數(shù)量年度增長趨勢
然而,盡管強化學(xué)習(xí)在理論和應(yīng)用上取得了顯著進展,但是由于交互學(xué)習(xí)過程中的復(fù)雜性和動態(tài)性,強化學(xué)習(xí)的評估方法仍然面臨諸多挑戰(zhàn)。評估指標不僅是衡量模型表現(xiàn)的工具,更是優(yōu)化算法、選擇策略以及推動實際應(yīng)用落地的關(guān)鍵。當前強化學(xué)習(xí)評估指標的設(shè)計和選擇主要存在以下問題:
(1) 指標單一性:大多數(shù)研究過度依賴于回合獎勵等單一指標。例如,在許多游戲場景中,僅僅關(guān)注最終得分這一指標,就可能忽略了許多其他重要的方面。從安全性角度來看,智能體在追求高分的過程中可能會采取一些看似有效但風(fēng)險極高的策略,這些策略在實際應(yīng)用中可能是不可接受的。而在效率方面,單一的回合獎勵指標也無法全面反映智能體達成目標的速度以及資源消耗情況。此外,不同任務(wù)可能還涉及公平性、穩(wěn)定性等多種維度,單一指標難以涵蓋這些多維性能,從而可能導(dǎo)致對智能體能力的評估出現(xiàn)偏差。
(2) 環(huán)境依賴性:在高維的環(huán)境狀態(tài)空間中,傳統(tǒng)的評估指標往往難以準確捕捉智能體的表現(xiàn)。這是因為高維狀態(tài)空間意味著智能體面臨更多的可能性和不確定性,簡單的指標可能無法充分考慮這些因素的影響。在這樣的任務(wù)中,智能體可能需要經(jīng)過很長一段時間或者一系列復(fù)雜的操作才能獲得獎勵。而且很多現(xiàn)有的評估指標在高維狀態(tài)空間中可能會失效,它們可能會錯誤地評估智能體的探索能力或者過早地下結(jié)論,認為智能體表現(xiàn)不佳,實際上智能體可能只是尚未找到正確的路徑,這就會導(dǎo)致評估結(jié)果的不準確性。
(3) 可解釋性缺失:現(xiàn)有指標與人類偏好或領(lǐng)域知識對齊的困難限制了模型的實際應(yīng)用。在許多實際應(yīng)用場景中,決策者需要理解智能體為何做出特定的決策,但是現(xiàn)有的評估指標通常只提供一個數(shù)值結(jié)果,缺乏對這個結(jié)果背后原因的解釋。例如,在醫(yī)療領(lǐng)域的強化學(xué)習(xí)應(yīng)用中,醫(yī)生希望了解智能體推薦某種治療方案的原因,而不是僅知道推薦的結(jié)果是基于某個評估指標得出的。如果不能將評估指標與醫(yī)學(xué)領(lǐng)域的專業(yè)知識相結(jié)合,那么即使智能體表現(xiàn)很好,也很難獲得醫(yī)生的信任。而且,不同的領(lǐng)域有不同的偏好和要求,如金融領(lǐng)域可能更注重風(fēng)險控制,制造業(yè)可能更關(guān)注生產(chǎn)效率的提升,現(xiàn)有指標難以根據(jù)這些不同的偏好進行靈活調(diào)整,從而影響了強化學(xué)習(xí)模型在這些領(lǐng)域的推廣和應(yīng)用。
針對上述問題,本文旨在對強化學(xué)習(xí)領(lǐng)域中的評估指標予以系統(tǒng)回顧,剖析其于不同任務(wù)場景里的適用性,同時探討其潛在的局限性。借由對現(xiàn)存文獻的梳理整合,本文歸結(jié)了評估指標的主要類別及其設(shè)計宗旨,并依據(jù)實際應(yīng)用場景指明了選取評估指標時應(yīng)當思量的關(guān)鍵要素。本文的相關(guān)研究不但為強化學(xué)習(xí)的研究者給予了全方位的參照,而且為評估方法的創(chuàng)新及優(yōu)化給予了理論支撐,進而促進強化學(xué)習(xí)技術(shù)在實際應(yīng)用當中的進一步發(fā)展與落地。
本文詳細內(nèi)容請下載:
http://www.ihrv.cn/resource/share/2000006800
作者信息:
安棟1,王媛媛2,宋寧寧3,戴超2,劉知音2
(1.華北計算機系統(tǒng)工程研究所,北京 100083;
2.中國信息安全研究院有限公司,北京 102209;
3.中國電子信息產(chǎn)業(yè)集團有限公司,廣東 深圳 518057)

