联合随机性策略的深度强化学习探索方法
所屬分類:技术论文
上傳者:zhoubin333
文檔大?。?span>679 K
標(biāo)簽: 强化学习 深度强化学习 探索利用困境
所需積分:0分積分不夠怎么辦?
文檔介紹: 目前深度强化学习算法已经可以解决许多复杂的任务,然而如何平衡探索和利用的关系仍然是强化学习领域的一个基本的难题,为此提出一种联合随机性策略的深度强化学习探索方法。该方法利用随机性策略具有探索能力的特点,用随机性策略生成的经验样本训练确定性策略,鼓励确定性策略在保持自身优势的前提下学会探索。通过结合确定性策略算法DDPG和提出的探索方法,得到基于随机性策略指导的确定性策略梯度算法(SGDPG)。在多个复杂环境下的实验表明,面对探索问题,SGDPG的探索效率和样本利用率要优于DDPG算法。
現(xiàn)在下載
VIP會員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。