利用动力学中的对称性进行有偏向奖励的基于模型的强化学习

Mar, 2024

利用动力学中的对称性进行有偏向奖励的基于模型的强化学习

Exploiting Symmetry in Dynamics for Model-Based Reinforcement Learning with Asymmetric Rewards

Yasin Sonmez, Neelay Junnarkar, Murat Arcak

TL;DR通过 Cartan 的运动参考系方法，我们提出了一种学习动力学模型的技术，该模型具有指定的对称性，并通过数值实验证明所提出的方法可以学习出更准确的动力学模型。

Abstract

Recent work in reinforcement learning has leveraged symmetries in the model to improve sample efficiency in training a policy. A commonly used simplifying assumption is that the dynamics and →

reinforcement learning symmetry dynamics reward cartan's moving frame method

发现论文，激发创造

强化学习中的函数逼近对称性学习

研究如何利用对称性以实现强化学习的样本效率，引入检测对称性的新方法，并证明其完整性；提供了将发现的对称性用于功能逼近的框架，并证明基于潜在效益的奖励塑形对于利用对称性特别有效；实验表明，利用对称性信息可以显著提高学习性能。

Jun, 2017

学习任务对称机器人策略的对称性考虑

通过数据增强和镜像损失函数的两种方法，将对称不变性纳入深度强化学习中，可在各种具有挑战性的机器人任务中实现更快收敛和改进的学习行为。

Mar, 2024

在轨迹数据中检测对称性以提供更有意义的强化学习表示

本研究提出了一种使用神经网络自动检测强化学习系统对称性并生成高级表示的方法，并在两个模拟环境中进行实验来证明此方法的可行性。

Nov, 2022

对称腿机器人的高效样本动力学学习：利用物理不变性和几何对称性

该论文提出了一种利用机器人系统对称性学习动态的新方法，通过设计基于神经网络的对称对象组来考虑机器人系统的几何先验知识，实现了对少样本数据实现系统动态的扩展和精准的控制，同时与现有模型相比，该方法使用更少的训练数据实现了更好的泛化。

Oct, 2022

深入挖掘：利用基本对称性，提高离线强化学习的样本效率

本文提出 Time-reversal symmetry enforced Dynamics Model 方法以增强离线 RL 在小数据集上表现，该方法可用于构建新的 TSRL 算法，对数据效率和泛化性能进行提升。

Jun, 2023

机器学习中实施、发现和促进对称性的统一框架

提供了将对称性引入机器学习模型的一种统一的理论和方法框架，包括强制已知对称性、发现未知对称性和通过施加凸正则化函数来促进对称性等方面。

Nov, 2023

利用对称性和启发式演示的离线策略强化学习在机器人操纵中的应用

本研究旨在定义和纳入物理机器人环境中的自然对称，利用行为克隆和强化学习相结合的方法，通过专家演示在对称环境下训练高效的模型无关强化学习策略，为普通操作任务的学习性能提供了新的可行方法。实验研究结果显示，相较于传统的策略外学习算法，该方法具有更好的学习性能和应用价值。

Apr, 2023

${m E}(3)$-Equivariant Actor-Critic 合作多智能体强化学习方法

本文重点研究了自然界中对称模式的识别和分析，在物理学中导致了引力定律的制定和化学结构研究的进展。我们着眼于利用某些协同多智能体强化学习问题中固有的欧几里得对称性，该问题在许多应用中普遍存在。我们首先形式化地表征了一类具有对称最优值和策略存在性的马尔科夫博弈的子类。在这些属性的基础上，我们设计了具有对称约束的神经网络架构，作为多智能体演员 - 评论家方法的归纳偏见。这种归纳偏见在各种协同多智能体强化学习基准测试中表现出优越的性能，以及在具有重复对称模式的未见场景中进行的零样本学习和迁移学习等令人印象深刻的泛化能力。代码可在此 https URL 获取。

Aug, 2023

应对不完美对称性：一种新的对称学习演员 - 评论扩展

通过自适应对称学习（ASL）模型，该研究旨在通过强化学习捕捉人类大脑适应不完全或不精确对称任务的能力，并在各种情境中通过减小波动来提高性能。

Sep, 2023

在黑盒元强化学习中引入对称性

本文研究了元强化学习中的对称性在元泛化中的作用，我们发现对称性和黑盒元强化学习系统中通常不存在的神经网络可以帮助提高算法泛化性能。通过实验验证，加入这些对称性可以使算法更好地推广到未见过的行动和观测空间、任务和环境之中。

Sep, 2021