在轨迹数据中检测对称性以提供更有意义的强化学习表示

AAAINov, 2022

在轨迹数据中检测对称性以提供更有意义的强化学习表示

Symmetry Detection in Trajectory Data for More Meaningful Reinforcement Learning Representations

Marissa D'Alonzo, Rebecca Russell

TL;DR本研究提出了一种使用神经网络自动检测强化学习系统对称性并生成高级表示的方法，并在两个模拟环境中进行实验来证明此方法的可行性。

Abstract

Knowledge of the symmetries of reinforcement learning (RL) systems can be used to create compressed and semantically meaningful representations of a low-level state space. We present a method of automatically det

reinforcement learning symmetries neural network high-level representations environment physics

发现论文，激发创造

强化学习中的函数逼近对称性学习

研究如何利用对称性以实现强化学习的样本效率，引入检测对称性的新方法，并证明其完整性；提供了将发现的对称性用于功能逼近的框架，并证明基于潜在效益的奖励塑形对于利用对称性特别有效；实验表明，利用对称性信息可以显著提高学习性能。

Jun, 2017

深入挖掘：利用基本对称性，提高离线强化学习的样本效率

本文提出 Time-reversal symmetry enforced Dynamics Model 方法以增强离线 RL 在小数据集上表现，该方法可用于构建新的 TSRL 算法，对数据效率和泛化性能进行提升。

Jun, 2023

学习任务对称机器人策略的对称性考虑

通过数据增强和镜像损失函数的两种方法，将对称不变性纳入深度强化学习中，可在各种具有挑战性的机器人任务中实现更快收敛和改进的学习行为。

Mar, 2024

利用动力学中的对称性进行有偏向奖励的基于模型的强化学习

通过 Cartan 的运动参考系方法，我们提出了一种学习动力学模型的技术，该模型具有指定的对称性，并通过数值实验证明所提出的方法可以学习出更准确的动力学模型。

Mar, 2024

在黑盒元强化学习中引入对称性

本文研究了元强化学习中的对称性在元泛化中的作用，我们发现对称性和黑盒元强化学习系统中通常不存在的神经网络可以帮助提高算法泛化性能。通过实验验证，加入这些对称性可以使算法更好地推广到未见过的行动和观测空间、任务和环境之中。

Sep, 2021

强化学习中时间反演对称性的研究

在这篇论文中，我们研究了强化学习中的时间对称性概念，并探讨了如何利用时间对称性来减少样本复杂度。通过开发一种新方法，即时间对称数据增强（TSDA），我们发现这种合成的过渡可以增强强化学习代理在可逆时间场景中的样本效率，进而提高强化学习的样本利用效率。

Nov, 2023

从对称性学习：具有对称数据和语言指示的元强化学习

提出了一种双 MDP 元强化学习方法，该方法将语言指令和对称数据结合到元 RL 中，能够显著提高元强化学习的泛化能力和学习效率。

Sep, 2022

利用神经网络检测对称性

本文介绍了一种使用神经网络来识别数据集中对称性的方法，并利用嵌入层的结构来识别对称性是否存在以及在输入中对称性的轨道。通过分析输入中的不变轨道，确定所存在的连续或离散对称群，并使用图表述的方式对完全交空间卡拉比 - 雅莫夫流形进行分类，并发现该方法对于识别输入空间中的离散对称性至关重要。

Mar, 2020

机器学习中实施、发现和促进对称性的统一框架

提供了将对称性引入机器学习模型的一种统一的理论和方法框架，包括强制已知对称性、发现未知对称性和通过施加凸正则化函数来促进对称性等方面。

Nov, 2023

学习对称和低能量行走

该论文提出了一种新颖的基于深度强化学习（DRL）方法来训练机器人的步态控制算法，并引入了一种新的课程学习方法来提供适当的物理辅助，帮助机器人保持平衡和前进。

Jan, 2018