利用对称性加速自由飞行机器人系统轨迹跟踪控制器的学习

Sep, 2024

利用对称性加速自由飞行机器人系统轨迹跟踪控制器的学习

Leveraging Symmetry to Accelerate Learning of Trajectory Tracking Controllers for Free-Flying Robotic Systems

Jake Welde, Nishanth Rao, Pratik Kunapuli, Dinesh Jayaraman, Vijay Kumar

TL;DR本研究解决了强化学习在高维系统中采样效率低和奖励设计挑战的问题。通过利用具有漂浮基底的机器人系统的李群对称性，将轨迹跟踪问题建模为马尔科夫决策过程，从而实现了在低维度“商”MDP上训练策略并应用于原始系统的最优控制器。研究表明，这种对称性的方法在加速训练和减少跟踪误差方面都具有显著效果。

Abstract

Tracking controllers enable Robotic Systems to accurately follow planned reference trajectories. In particular, Reinforcement Learning (RL) has shown promise in the synthesis of controllers for systems with compl

发现论文，激发创造

对称腿机器人的高效样本动力学学习：利用物理不变性和几何对称性

该论文提出了一种利用机器人系统对称性学习动态的新方法，通过设计基于神经网络的对称对象组来考虑机器人系统的几何先验知识，实现了对少样本数据实现系统动态的扩展和精准的控制，同时与现有模型相比，该方法使用更少的训练数据实现了更好的泛化。

Oct, 2022

在轨迹数据中检测对称性以提供更有意义的强化学习表示

本研究提出了一种使用神经网络自动检测强化学习系统对称性并生成高级表示的方法，并在两个模拟环境中进行实验来证明此方法的可行性。

Nov, 2022

存在对称性和状态抽象的策略梯度方法

本研究旨在通过抽象来提高强化学习在高维度和复杂问题上的效率和泛化能力，并在连续控制环境中研究抽象的概念，提出了一系列基于异构度量的策略梯度算法以及具有连续对称性的环境来证明该算法的效果，结果表明该算法利用MDP同态性进行表示学习可以提高其性能。

May, 2023

欧几里德对称性在强化学习和规划中可行吗？

该研究论文探讨了改进机器人任务中有对称性的强化学习和规划算法的设计，算法在处理具有欧几里德群对称性的问题时表现出更好的性能。

Jul, 2023

${ m E}(3)$-Equivariant Actor-Critic 合作多智能体强化学习方法

本文重点研究了自然界中对称模式的识别和分析，在物理学中导致了引力定律的制定和化学结构研究的进展。我们着眼于利用某些协同多智能体强化学习问题中固有的欧几里得对称性，该问题在许多应用中普遍存在。我们首先形式化地表征了一类具有对称最优值和策略存在性的马尔科夫博弈的子类。在这些属性的基础上，我们设计了具有对称约束的神经网络架构，作为多智能体演员-评论家方法的归纳偏见。这种归纳偏见在各种协同多智能体强化学习基准测试中表现出优越的性能，以及在具有重复对称模式的未见场景中进行的零样本学习和迁移学习等令人印象深刻的泛化能力。代码可在此 https URL 获取。

Aug, 2023

应对不完美对称性：一种新的对称学习演员-评论扩展

通过自适应对称学习（ASL）模型，该研究旨在通过强化学习捕捉人类大脑适应不完全或不精确对称任务的能力，并在各种情境中通过减小波动来提高性能。

Sep, 2023

学习任务对称机器人策略的对称性考虑

通过数据增强和镜像损失函数的两种方法，将对称不变性纳入深度强化学习中，可在各种具有挑战性的机器人任务中实现更快收敛和改进的学习行为。

Mar, 2024

利用动力学中的对称性进行有偏向奖励的基于模型的强化学习

通过Cartan的运动参考系方法，我们提出了一种学习动力学模型的技术，该模型具有指定的对称性，并通过数值实验证明所提出的方法可以学习出更准确的动力学模型。

Mar, 2024

深度强化学习与对称数据增强在航空器侧向姿态跟踪控制中的应用

基于对称性的数据增强方法和扩展的Deep Deterministic Policy Gradient算法在航空器横向跟踪控制任务中展示了增强的样本效率和跟踪性能。

Jul, 2024

部分可观测下的等变强化学习

本研究解决了在部分可观测的环境中，机器人学习的样本效率问题。通过将特定群体对称性编码到神经网络中，提出了一种新的等变强化学习方法，使得智能体能够在相关场景中重用先前的解决方案。实验结果表明，等变智能体在样本效率和最终性能上显著优于非等变方法，具有潜在的影响力。

Aug, 2024