使用离线演示的指导，稀疏奖励下的强化学习

Feb, 2022

使用离线演示的指导，稀疏奖励下的强化学习

Reinforcement Learning with Sparse Rewards using Guidance from Offline Demonstration

Desik Rengarajan, Gargi Vaidya, Akshay Sarvesh, Dileep Kalathil, Srinivas Shakkottai

TL;DR该论文中，我们提出了一种基于利用离线演示数据的算法：学习在线指导离线（LOGO），可以在稀疏奖励和不完整观测的情况下进行更快、更有效的在线强化学习，并且可以在探索阶段减少迭代次数。

Abstract

A major challenge in real-world reinforcement learning (RL) is the sparsity of reward feedback. Often, what is available is an intuitive but sparse reward function that only indicates whether the task is completed partially or fully. However, the lack of carefully designed, fine grain

发现论文，激发创造

利用演示克服强化学习中的探索问题

本研究利用示范来解决强化学习中稀疏奖励的探索问题，成功地学习了长期、多步骤的机器人任务，方法使用了DDPG和HER算法，提供了一种在仿真机器人任务上比以往RL算法快一个数量级的加速，方法易于实现，能够解决在行为克隆和RL算法中都无法解决的任务，并且往往表现优于示范策略。

Sep, 2017

MOPO: 基于模型的离线策略优化

本文提出了一种基于模型的离线策略优化算法(MOPO)，通过将模型地图上未知点处的即时报酬设置为高风险，从而优化模型训练过程中的代理策略，以解决离线数据分布发生漂移的问题，并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。

May, 2020

使用离线数据进行高效在线强化学习

本研究提出了一种简单的方法，利用离线数据来解决在线强化学习中的效率和探索性问题，通过对现有离线策略学习算法进行改进，得出了可以在各种竞争对手的基准测试中比现有方法提高2.5倍的建议。

Feb, 2023

CLUE: 离线强化学习的校准潜在指导

本文提出了一种基于专家数据提取内在奖励的方法，该方法利用了Calibrated Latent Guidance (CLUE) 来消除离线 RL 中需要手动指定外部奖励的步骤，并在不同的离线 RL 任务中取得了良好效果。

Jun, 2023

基于观测历史的离线强化学习：分析和改善采样复杂度

标准离线强化学习算法在观测历史的条件下存在样本复杂度高的问题，然而通过引入双模拟损失函数，离线强化学习可以显式地优化该损失函数，从而在性能上得到改善。

Oct, 2023

使用从稀疏奖励演示中学到的平滑引导奖励的策略优化

通过使用离线演示算法，提出了一种名为Policy Optimization with Smooth Guidance (POSG)的简单高效的在线深度强化学习算法，该算法能够解决奖励反馈稀疏性的问题，并在稀疏奖励环境中实现可靠有效的长期信用分配以及有效的探索。

Dec, 2023

基于轨迹的稀疏奖励策略优化

利用离线演示轨迹的强化学习方法，通过最大均值差异（MMD）计算轨迹距离并将策略优化视为一种受距离限制的优化问题，从离线演示学习到的形状奖励函数实现了与离线演示相匹配的状态-动作访问边缘分布，从而在稀疏奖励环境下提供了更快且更高效的在线强化学习方法。

Jan, 2024

基于奖励相关性过滤的线性离线强化学习

这篇论文研究了离线强化学习中带有判决论但非估计稀疏性的线性函数逼近。

Jan, 2024

离线逆强化学习：新的解决方案概念和可证明高效算法

逆强化学习（IRL）的目标是从行为示范中恢复专家智能体的奖励函数。本文介绍了一种新的可行奖励集概念，捕捉了离线设置的机会和限制，并分析了其估计的复杂性。通过引入针对该设置固有困难的原始学习框架，我们提出了两种计算和统计高效的算法，IRLO和PIRLO，用于解决这个问题。

Feb, 2024

离线强化学习的优化扩散策略

离线强化学习研究了优化策略的方法，使用扩散模型进行模拟，通过首选动作优化提高性能，在稀疏奖励任务中表现出竞争力或卓越性能，同时证明了抗噪声偏好优化的有效性。

May, 2024