轨迹空间平滑的学习引导奖励
通过使用离线演示算法,提出了一种名为 Policy Optimization with Smooth Guidance (POSG) 的简单高效的在线深度强化学习算法,该算法能够解决奖励反馈稀疏性的问题,并在稀疏奖励环境中实现可靠有效的长期信用分配以及有效的探索。
Dec, 2023
通过使用多样的过去轨迹作为指导,而不是模仿它们,本文提出了一种方法,使得在线强化学习更快、更高效,即使这些轨迹是次优的或未获得高奖励;此外,引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法,与现有的强化学习方法相比,实验结果表明我们提出的算法在多样化探索和避免局部最优方面显著优于基准方法。
Feb, 2024
本文提出了一种基于轨迹反馈的强化学习算法,通过加强措施而无需为每个状态 - 动作对提供奖励,旨在处理现实世界的环境下反馈不及时的问题,同时,我们还分析了此算法的性能并提供优化 - 汤普森采样方法来处理未知转移模型的情况。
Aug, 2020
本文介绍了一种新的时间信用分配算法,使用深度神经网络将时间步骤分解为每个步骤,并采用 Transformer 语言模型学习轨迹状态的重要性和依赖性,可大幅提高回路强化学习的学习效率。作者在一组具有连续运动控制任务的 MuJoCo 上进行了广泛的实验,并证明了该算法的有效性。
May, 2019
本文提出了一种基于 RRD (Randomized Return Decomposition) 算法的代理奖励机制,从而解决了强化学习中因奖励稀疏和延迟所引起的问题,并在基准任务上获得了显著的改进。
Nov, 2021
信用分配问题是强化学习中一个长期存在的挑战,通过对深度强化学习中的时间性信用分配进行研究,提出了一种统一的信用形式,并分析了现有方法在处理延迟效应、位置换位和行动影响不足方面的挑战,还介绍了评估信用分配方法的协议,并建议诊断不同信用分配方法困难来源的方法。该综述为新进入者和研究人员提供了领域概述,为学者在信用分配问题上开展新研究提供了连贯的视角,并提出了未来研究的潜在方向。
Dec, 2023
本文提出一种新的强化学习范式,利用记忆回忆特定事件来赋予过去行动以荣誉,解决了过去人工智能方法无法解决的问题,将为神经科学、心理学和行为经济学等领域提供计算机模型的机制解释。
Oct, 2018
利用 Skill-Critic 算法,结合高层技能选择来优化低级和高级策略,通过离线演示数据学习到的潜在空间来指导联合策略优化,提高在多个稀疏环境中的决策性能。
Jun, 2023