强化学习中的探索问题:基于情节访问差异性的奖励机制
本论文提出一种基于条件互信息的探索奖励方法 (DEIR),实现了从代理探索中产生的新颖性的累积学习。在 ProcGen 数据集的实验中表现出快速学习和良好的泛化性能。
Apr, 2023
在多智能体强化学习领域,内在动机作为一种重要的探索工具已经出现。我们提出了一种动态奖励缩放方法,以应对神经网络统计近似器的有限表达能力所带来的挑战,并有效控制多次重复访问任务空间的现象,在 Google Research Football 和 StarCraft II 微管理任务等挑战性环境中展示了改进的性能,尤其是在稀疏奖励设置下。
Aug, 2023
本篇论文提出了一种基于强化学习和 UVFA 框架的方法,通过学习一系列定向的探索策略来解决难以探索的游戏,并使用轨迹存储和 kNN 算法来构造一种内在奖励信号,以影响策略的学习方式,并在 Atari-57 游戏套件中得到了很好的表现结果。
Feb, 2020
本文提出了基于学习奖励值的新颖探索方法来解决当前偏好型强化学习算法中人类反馈低效的问题,并在 MetaWorld 基准测试的复杂机器人操作任务中证明了其有效性。
May, 2022
研究了强化学习(RL)方法在探索复杂环境时的有效性,并引入通过椭圆形周期性奖励探索方法(E3B)以扩展计数周期性奖励至连续状态空间,使用反向动力学模型学习嵌入以捕获环境可控方面,可扩展到高维像素感知和现实环境中。在挑战任务中实现了全新的 state-of-the-art,而不需要特定于任务的归纳偏差,并在稀疏奖励、基于像素的 VizDoom 环境中与现有方法匹配,在 Habitat 上的无奖励探究中优于现有方法。
Oct, 2022
为解决深度强化学习中的长期探索能力问题,本文提出了一种基于 Rényi 熵的新型内在奖励模块,并通过较广泛的模拟结果证明了其高于现有方案的性能。
Mar, 2022
稀疏奖励环境对于强化学习代理是具有挑战性的,本文提出了一种新的内在奖励,系统地量化探索行为并通过最大化代理路径的信息内容来促进状态覆盖,通过与其他探索性内在奖励技术(即好奇心驱动学习和随机网络蒸馏)进行比较,证明了该信息理论奖励具有高效探索,其在包括 Montezuma Revenge 在内的各种游戏中的表现优于其他方法。最后,我们提出了一种在离散压缩的潜在空间中最大化信息内容的扩展方法,提高了样本效率并推广到连续状态空间。
Oct, 2023
我们提出了一种名为 Diaster(隐式分配子轨道奖励差异)的新的分解方法,将任何情节奖励分解为两个分割点处的两个子轨迹的学分,并且步骤性代理奖励来自期望的差异。我们在理论和实证上验证了分解后的代理奖励函数可以使策略趋近于最优。实验结果表明,我们的方法在样本效率和性能方面优于先前的最新方法。
Dec, 2023