深入挖掘：利用基本对称性，提高离线强化学习的样本效率

Jun, 2023

深入挖掘：利用基本对称性，提高离线强化学习的样本效率

Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL

Peng Cheng, Xianyuan Zhan, Zhihao Wu, Wenjia Zhang, Shoucheng Song...

TL;DR本文提出 Time-reversal symmetry enforced Dynamics Model 方法以增强离线 RL 在小数据集上表现，该方法可用于构建新的 TSRL 算法，对数据效率和泛化性能进行提升。

Abstract

offline reinforcement learning (RL) offers an appealing approach to real-world tasks by learning policies from pre-collected datasets without interacting with the environment. However, the →

offline reinforcement learning datasets time-reversal symmetry dynamics model performance

发现论文，激发创造

强化学习中时间反演对称性的研究

在这篇论文中，我们研究了强化学习中的时间对称性概念，并探讨了如何利用时间对称性来减少样本复杂度。通过开发一种新方法，即时间对称数据增强（TSDA），我们发现这种合成的过渡可以增强强化学习代理在可逆时间场景中的样本效率，进而提高强化学习的样本利用效率。

Nov, 2023

在轨迹数据中检测对称性以提供更有意义的强化学习表示

本研究提出了一种使用神经网络自动检测强化学习系统对称性并生成高级表示的方法，并在两个模拟环境中进行实验来证明此方法的可行性。

Nov, 2022

强化学习中的函数逼近对称性学习

研究如何利用对称性以实现强化学习的样本效率，引入检测对称性的新方法，并证明其完整性；提供了将发现的对称性用于功能逼近的框架，并证明基于潜在效益的奖励塑形对于利用对称性特别有效；实验表明，利用对称性信息可以显著提高学习性能。

Jun, 2017

利用动力学中的对称性进行有偏向奖励的基于模型的强化学习

通过 Cartan 的运动参考系方法，我们提出了一种学习动力学模型的技术，该模型具有指定的对称性，并通过数值实验证明所提出的方法可以学习出更准确的动力学模型。

Mar, 2024

学习任务对称机器人策略的对称性考虑

通过数据增强和镜像损失函数的两种方法，将对称不变性纳入深度强化学习中，可在各种具有挑战性的机器人任务中实现更快收敛和改进的学习行为。

Mar, 2024

具有潜在动态信息的可证明样本效率强化学习

本文研究了在观测结果高维的情况下，强化学习智能体如何使用对状态空间结构的抽象知识来学习目标领域中的任务。提出了一种名为 TASID 的算法，该算法学习目标任务的健壮策略，其采样复杂度是地平线次数的多项式，并且可以利用先前的知识独立于状态数。

May, 2022

在黑盒元强化学习中引入对称性

本文研究了元强化学习中的对称性在元泛化中的作用，我们发现对称性和黑盒元强化学习系统中通常不存在的神经网络可以帮助提高算法泛化性能。通过实验验证，加入这些对称性可以使算法更好地推广到未见过的行动和观测空间、任务和环境之中。

Sep, 2021

从对称性学习：具有对称数据和语言指示的元强化学习

提出了一种双 MDP 元强化学习方法，该方法将语言指令和对称数据结合到元 RL 中，能够显著提高元强化学习的泛化能力和学习效率。

Sep, 2022

基于逆向模型想象的离线强化学习

针对离线强化学习模型的学习策略和给定数据集之间的分布变化这一难题，提出了一种新的基于模型的离线强化学习框架，名为 ROMI，它通过学习一个反向动力学模型和一种新颖的反向策略，可以在离线数据集内生成无风险 imagination，并启用 model-free 策略学习和保守性的泛化。实证结果表明，该方法能够生成更为保守的行为，并取得最先进的离线强化学习基准任务的表现。

Oct, 2021

在信任状态之前双重检查：基于模型的想象中的置信度感知双向离线模型

本文提出一种置信度感知的双向离线模型想象算法，使用训练好的双向动力学模型和推进策略来扩充离线数据集，以增强在线学习的推广能力。实验结果表明，该算法显著提高了现有模型无关的线下 RL 算法的性能，并与基线方法相比获得了竞争性或更好的得分。

Jun, 2022