蒙特卡罗强化学习中的轨迹截断
通过规划最大化任务最优轨迹的期望信息增益的行动序列,使得该方法在较低的样本量下能够学习较强的策略,比探索基线算法少用 2 倍样本,比模型自由方法少用 200 倍样本。
Oct, 2022
TATU is proposed to address the issue of uncertainty in synthetic samples for model-based offline RL algorithms and has been shown to improve the performance of various RL algorithms on the D4RL benchmark.
Apr, 2023
通过展示强化学习代理在更广泛的轨迹分布中的行为,我们的方法可以传达代理在分布转移下的表现,从而有助于代理的有效验证。在用户研究中,我们展示了我们的方法可以使用户在代理验证任务中的得分比基准方法高。
Jan, 2022
本文提出了一种基于轨迹反馈的强化学习算法,通过加强措施而无需为每个状态 - 动作对提供奖励,旨在处理现实世界的环境下反馈不及时的问题,同时,我们还分析了此算法的性能并提供优化 - 汤普森采样方法来处理未知转移模型的情况。
Aug, 2020
本研究提出一种记忆技术 (Prioritized) Trajectory Replay (TR/PTR) 以优化 offline RL 的效率和性能。该方法将采样视角扩展到轨迹上,具有更全面的信息提取能力,并应用于现有的 offline RL 算法中。
Jun, 2023
本文提出了一种基于 RRD (Randomized Return Decomposition) 算法的代理奖励机制,从而解决了强化学习中因奖励稀疏和延迟所引起的问题,并在基准任务上获得了显著的改进。
Nov, 2021
本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域,并提出将单个随机操作选择替换为随机目标选择,该方法与任何基于好奇心的探索和脱机强化学习代理兼容,并生成比单个随机操作更长且更安全的轨迹。
Jul, 2018
本文研究了基于离线数据的深度强化学习算法,提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力,并且证明了该方法可以实现安全的离线学习。实验证明,该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。
Aug, 2022
本文提出一种新的,无模型的策略搜索算法,POIS,它适用于基于动作和基于参数的设置,可在连续控制任务中有效地解决强化学习问题,通过离线优化新的轨迹批次来定义一个替代目标函数,并使用高置信度界限来解决估计的目标函数方差问题。
Sep, 2018