强化学习中勘探对泛化的重要性
本文介绍了一种基于差异性驱动的强化学习探索方法,结合在线和离线强化学习算法,通过向损失函数中添加距离度量,显著提高了代理的探索行为,从而防止局部最优解以及进行了学习进程的自适应缩放方法,实验表明该方法在 Atari 2600 中在多个任务中显著优于基线方法.
Feb, 2018
本论文提出的一种深度深度强化学习探索方法具有两个组成部分:有一个递减的时间表来抑制内在不确定性,一个探索奖励是从所学分布的上分位数中计算出来的,实验结果表明,我们的算法在 14 个 Atari 2600 游戏中有 12 个游戏取得了比 QR-DQN 更好的成绩,在难度较大的 3D 驾驶模拟器 (CARLA) 中,我们的算法安全奖励达到了近乎最优,比 QRDQN 快两倍。
May, 2019
本研究中,我们采用了三种 Deep Q-Networks 算法,分别使用了智能采样策略来解决 URRLC 消息的发送问题,证明了方差和最大熵探索的效率比标准的贪婪探索方法更高。
Apr, 2023
通过引入基准测试和实验协议,我们对深度强化学习中不同泛化方案的优点进行了系统评估,并发现与特定针对泛化的专门方案相比,“vanilla” 深度 RL 算法的泛化能力更强。
Oct, 2018
本研究通过理论和实证方法,探讨从不同角度对多任务强化学习的泛化性能进行提升,发现增加回放缓冲区中的转换的多样性有助于提高对训练期间 “可达” 和 “不可达” 状态的泛化能力和潜在表示的泛化能力。
Jun, 2023
该研究提出了一种基于分布强化学习和结合贝叶斯参数更新与深度强化学习的框架,将多种先前的探索方法进行了概念统一,并推导出一个实用算法,在具有挑战性的控制任务上实现高效的探索。
May, 2018
本文提出了一种基于判别式训练范例模型的探索性新颖性检测算法,该算法可以应用于稀疏回报问题的深度强化学习任务,此方法在 vizDoom 基准测试中取得了最先进的结果。
Mar, 2017
本文提出了一种基于信息导向采样的探索策略,结合分布式强化学习的方法,应对异方差性观测噪声与参数不确定性的挑战,并在 Atari 游戏中展示出比传统策略显著的改进。
Dec, 2018
本文研究了强化学习中的探索开发平衡问题,并提出两种基于邻近状态的无模型探索算法,其中一种方法(${ho}$-explore)在离散环境中相比于基准算法 Double DQN,在评估奖励回报方面提高了 49%。
Dec, 2022