论离线元强化学习任务表示学习中的上下文分布转移
通过最大化互信息来提高任务表示能够实现性能的单调改善,其中,RETRO 算法重新调整任务表示偏移,从而在离线元强化学习中取得了 SOTA 的渐近性能、训练稳定性和训练时间消耗的实证结果。
May, 2024
本文针对离线强化学习中的元学习问题,通过引入任务注意力机制和对比学习目标来提高任务表示的鲁棒性,从而改进了现有算法,并在多个元强化学习基准测试中展示了优越的性能和稳健性。
Feb, 2021
离线元强化学习(OMRL)的出现作为离线 RL 和元 RL 的结合在使 RL 代理能够多任务和快速适应并安全地获取知识方面显示出了巨大的潜力。我们提出将离线元强化学习的几个关键里程碑整合到一个统一的信息论框架中,并展示了现有的上下文 OMRL 算法本质上是通过实现各种近似界限优化任务变量 $oldsymbol {M}$ 与其潜在表示 $oldsymbol {Z}$ 之间的相互信息目标。基于理论见解和信息瓶颈原理,我们提出了一种新的算法称为 UNICORN,在 RL 基准、上下文转变场景、数据质量和深度学习架构的广泛领域中展示了卓越的泛化能力,达到了新的技术水平。我们相信我们的框架可以为新的优化界限和上下文 OMRL 算法开辟新的研究方向。
Feb, 2024
在离线元强化学习的背景下,提出了一种对抗学习框架,用于学习对行为策略不敏感的任务表示,并通过对各种离线元强化学习基准测试的实验,展示了该方法相比之前的方法在行为策略的泛化能力方面的优越性。
Jun, 2022
离线元强化学习(OMRL)通过仅依赖静态数据集,使代理程序能够有效应对新任务。然而,许多现有的 OMRL 方法中,学到的任务表示往往与行为策略产生虚假相关,而非准确反映任务的本质特征。为了解决这个问题,我们提出了一种新的算法,通过对抗性数据增强的过程来消除行为策略对任务表示学习的影响,并实现了令人满意的分布外泛化。
Mar, 2024
本研究旨在通过实施行为规范化、采用确定性上下文编码器及负幂距离度量等新方法,构建一种全新的、终端到终端的离线元元强化学习算法,以解决元强化学习中 “脱离分布状态动作引起的自举误差” 和 “训练策略学习的效率和健壮性” 等两大挑战,并将该算法应用于多种元强化学习基准测试中,展示了较为出色的性能。
Oct, 2020
GENTLE 是一种用于解决在有限数据条件下学习可推广任务表征的新算法,它利用 Task Auto-Encoder 通过重构状态转换和奖励来捕捉任务模型的生成结构,并通过构造伪转换来缓解行为多样性有限的影响。实证结果表明,在分布内和分布外任务上,GENTLE 方法在给定上下文协议和一次性协议下明显优于现有的离线元强化学习方法。
Dec, 2023
离线强化学习通过离线数据集学习顺序行为,但实际应用中离线和在线阶段的转换动力学常常变化,所以提出了一种利用残差学习推断离线解决方案输出的动力学变化的方法,在在线微调阶段通过训练上下文编码器来学习能在当前在线学习环境中保持一致且能预测动态转换的表示,实验证明该方法适应这种动态变化,并可以以高样本利用率的方式推广到未见过的扰动。
Jun, 2024
我们研究了强化学习中的离线多任务表示学习,理论上研究了离线多任务低秩强化学习,并提出了一种名为 MORL 的用于离线多任务表示学习的新算法。此外,我们还研究了奖励缺失、离线和在线情景下的下游强化学习,在其中引入了一个与上游离线任务共享相同表示的新任务。我们的理论结果证明了使用上游离线任务学到的表示而不是直接学习低秩模型的表示的好处。
Mar, 2024