蒙特卡罗强化学习中的轨迹截断

May, 2023

Truncating Trajectories in Monte Carlo Reinforcement Learning

Riccardo Poiani, Alberto Maria Metelli, Marcello Restelli

TL;DR该研究提出了一种基于预算分配的数据收集策略，通过对轨迹进行截断来最小化策略的预期收益的经验估计的置信区间的宽度。研究还使用这种轨迹截断机制扩展了一种基于重要性采样的政策优化算法，并在数值比较中证明了该算法可以成功提高性能。

Abstract

In reinforcement learning (RL), an agent acts in an unknown environment to maximize the expected cumulative discounted sum of an external reward signal, i.e., the expected return. In practice, in many tasks of interest, such as →

reinforcement learning data collection strategy trajectory truncation policy optimization importance sampling

发现论文，激发创造

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

基于模型的离线强化学习中的不确定性驱动轨迹截断

TATU is proposed to address the issue of uncertainty in synthetic samples for model-based offline RL algorithms and has been shown to improve the performance of various RL algorithms on the D4RL benchmark.

Apr, 2023

通过反事实轨迹解释强化学习策略

通过展示强化学习代理在更广泛的轨迹分布中的行为，我们的方法可以传达代理在分布转移下的表现，从而有助于代理的有效验证。在用户研究中，我们展示了我们的方法可以使用户在代理验证任务中的得分比基准方法高。

Jan, 2022

轨迹反馈的强化学习

本文提出了一种基于轨迹反馈的强化学习算法，通过加强措施而无需为每个状态 - 动作对提供奖励，旨在处理现实世界的环境下反馈不及时的问题，同时，我们还分析了此算法的性能并提供优化 - 汤普森采样方法来处理未知转移模型的情况。

Aug, 2020

优先轨迹回放：一种面向数据驱动型强化学习的回放内存

本研究提出一种记忆技术 (Prioritized) Trajectory Replay (TR/PTR) 以优化 offline RL 的效率和性能。该方法将采样视角扩展到轨迹上，具有更全面的信息提取能力，并应用于现有的 offline RL 算法中。

Jun, 2023

通过随机回报分解学习长期奖励再分配

本文提出了一种基于 RRD (Randomized Return Decomposition) 算法的代理奖励机制，从而解决了强化学习中因奖励稀疏和延迟所引起的问题，并在基准任务上获得了显著的改进。

Nov, 2021

轨迹空间平滑的学习引导奖励

该论文介绍了一种使用轨迹空间平滑来学习指导奖励的算法，并阐明了该算法在解决强化学习中长期时序信用分配问题上的优越性。

Oct, 2020

为高效探索确定目标取向轨迹

本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域，并提出将单个随机操作选择替换为随机目标选择，该方法与任何基于好奇心的探索和脱机强化学习代理兼容，并生成比单个随机操作更长且更安全的轨迹。

Jul, 2018

无需重要性采样的 Actor-Critic 方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

重要性采样的策略优化

本文提出一种新的，无模型的策略搜索算法，POIS，它适用于基于动作和基于参数的设置，可在连续控制任务中有效地解决强化学习问题，通过离线优化新的轨迹批次来定义一个替代目标函数，并使用高置信度界限来解决估计的目标函数方差问题。

Sep, 2018