研究了强化学习中采用离线轨迹进行数据增强的方法,发现采用离线轨迹进行前置训练或同时进行在线强化学习和离线轨迹训练均能提高样本效率和收敛到最优策略,预训练只需要两条轨迹数据即可对最终学习结果产生较大影响。
Apr, 2023
本文介绍了一种名为自适应策略学习的框架,可用于离线学习与在线学习的融合,并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量,进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明,该算法可以在离线数据集质量较差的情况下实现高样本效率。
Mar, 2023
本文考虑了具有线性结构的 MDPs 的 FineTuneRL 设置,并开发了一种称为 FTPedel 的算法,用于结合脱机数据和在线 RL 以改进学习表现,结果证明了在线样本数的必要性以及在线 RL 和脱机数据结合的优越性,突出了在线 RL 和脱机 RL 之间的区别。
Nov, 2022
通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据,在保持简单性的同时,最大限度地提高了运行效率,从而实现了与现有离线 RL 算法相当的性能。
Jun, 2021
本文研究离线强化学习在何种情况下可以胜过仅仅利用专家数据的行为克隆算法,结果表明:可以在特定的条件下,如稀疏奖励或嘈杂的数据源,现代离线学习方法可以显着地胜过行为克隆算法,尤其是在长期视野问题上,甚至比专家数据上的行为克隆算法更好。
Apr, 2022
利用离线数据集设计无反馈的探索策略,改进强化学习的政策。研究通过理论分析和度量方法,以原始数据集的局部覆盖和附加数据收集的量来衡量最终政策的质量。
Jul, 2023
离线策略学习旨在利用现有的轨迹数据集来学习决策策略,而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块,从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明,在 72 个不平衡数据集、D4RL 数据集以及三个不同离线强化学习算法中均取得了显著的性能改进。
Oct, 2023
本文提出了一种利用离线数据进行偏好学习的方法,通过基于池的主动学习生成偏好查询,学习奖励函数的分布,通过离线强化学习优化相应的策略,从而使代理人能够在未显示的离线数据中学习执行新任务。
Jan, 2023
本文提出了一种实用的线下强化学习工作流程,类似于监督学习问题的工作流程,并演示了在几个模拟机器人学习场景和两个不同真实机器人上的三个任务中,使用此工作流程在没有在线调整的情况下生成有效策略的有效性。
Sep, 2021
本文介绍一种可在实际机器人控制中应用的,将过往数据和在线学习相结合的策略,使用动态规划和策略更新相结合的方法可以有效提高学习效率并使学习时间缩短至实际可接受的范围。
Jun, 2020