DARA: 离线强化学习中的动态感知奖励增强

ICLRMar, 2022

DARA: 离线强化学习中的动态感知奖励增强

DARA: Dynamics-Aware Reward Augmentation in Offline Reinforcement Learning

Jinxin Liu, Hongyin Zhang, Donglin Wang

TL;DR该论文提出了一种离线动态适应的强化学习方法，实现了对目标任务中状态转移对的学习，并且通过奖励增强在源任务的离线数据集中的学习，显著降低了在目标环境下的数据要求。

Abstract

offline reinforcement learning algorithms promise to be applicable in settings where a fixed dataset is available and no new experience can be acquired. However, such formulation is inevitably offline-data-hungry and, in practice, collecting a large offline dataset for one specific tas

offline reinforcement learning offline dynamics adaptation dynamics shift problem reward augmentation target environment

发现论文，激发创造

去偏离线表示学习用于快速在线适应非平稳动态

发展能够适应非平稳环境的策略对于现实强化学习应用至关重要。本文介绍了一种名为 DORA 的新方法，通过信息瓶颈原理实现了快速在线自适应，并在实验评估中展示了其在动力学编码和性能方面明显优于现有基线模型。

Feb, 2024

理解何时动力学不变数据增强对无模型强化学习更新有益

数据扩增在强化学习任务中提高数据效率的实验研究中起关键作用，增加状态 - 动作覆盖范围对数据效率的影响明显大于奖励密度的增加，同时减少扩增回放比显著提高数据效率。

Oct, 2023

SERA：离线到在线强化学习中的样本高效奖励增强

通过引入一种名为 Sample Efficient Reward Augmentation (SERA) 的广义奖励增强框架来提高在线微调的性能，SERA 通过设计鼓励探索的内在奖励，来增强在线微调表现。它隐含地实现了 State Marginal Matching (SMM) 并惩罚分布外的状态动作，从而鼓励代理覆盖目标状态密度，以实现更好的在线微调结果。此外，SERA 可以轻松地集成到各种强化学习算法中，以提高在线微调并确保持续渐近改进，展示了 SERA 的通用性和有效性。大量实验结果证明，在进行离线到在线问题时，SERA 始终能够一致而有效地提升各种离线算法的性能。

Oct, 2023

DARLA: 在强化学习中改进零样本迁移

该论文讨论利用多级深度强化学习代理 DARLA，通过学习离散化的环境表示，使策略更具鲁棒性实现领域自适应，该方法在不同的 RL 环境（Jaco arm, DeepMind Lab）和基本 RL 算法（DQN, A3C, and EC）中显示出比传统基线方法更好的性能表现。

Jul, 2017

何时信任你的模拟器：动态感知的离线与在线混合增强学习

本研究提出了一个新的混合离线 - 在线强化学习范式，通过使用有限的真实数据和不受限制的模拟器探索来解决两种方法的缺陷，并在通过广泛的仿真和实际任务以及理论分析中证明了 H2O 优于其他跨域在线和离线强化学习算法，从而为解决实际的复杂任务提供了全新的思路。

Jun, 2022

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

超越 OOD 状态行为：支持跨域离线强化学习

本文提出了交叉领域离线强化学习方法 BOSA，通过利用来自不同转移动态（环境）的源领域数据，解决了离线 RL 中存在的数据效率不高的问题，并通过实验证明其在离线数据效率方面的有效性。

Jun, 2023

AWAC: 利用非在线数据集加速在线强化学习

本文介绍一种可在实际机器人控制中应用的，将过往数据和在线学习相结合的策略，使用动态规划和策略更新相结合的方法可以有效提高学习效率并使学习时间缩短至实际可接受的范围。

Jun, 2020

小数据集，巨大增益：通过基于模型的增强学习的离线预训练来提升性能

基于离线数据的强化学习预训练改进的模型数据增强策略，可以减少所需数据规模，并大幅提高在线微调效果和降低环境交互次数。

Dec, 2023

PAnDR: 通过解耦策略和环境表示从离线经验中快速适应新环境

本文介绍了一种离线训练和在线适应设置下的策略快速适应方案 PAnDR，其通过对比学习和策略恢复学习环境表示和策略表示，在线适应阶段通过梯度上升算法优化策略，在几个典型问题上的实验结果表明，PAnDR 算法可优于现有算法。

Apr, 2022