映射路径规划中具等变性的模型集与正则化

Mar, 2024

映射路径规划中具等变性的模型集与正则化

Equivariant Ensembles and Regularization for Reinforcement Learning in Map-based Path Planning

Mirco Theile, Hongpeng Cao, Marco Caccamo, Alberto L. Sangiovanni-Vincentelli

TL;DR强化学习中，利用环境对称性可以提高效率、鲁棒性和性能。本文提出了一种构建等变策略和不变值函数的方法，而无需使用专门的神经网络组件，并在训练过程中添加了正则化项以增加归纳偏置。通过基于地图的路径规划案例研究，展示了等变集合和正则化对样本效率和性能的改进。

Abstract

In reinforcement learning (RL), exploiting environmental symmetries can significantly enhance efficiency, robustness, and performance. However, ensuring that the deep RL policy and value networks are respectively

reinforcement learning environmental symmetries equivariant ensembles regularization sample efficiency

发现论文，激发创造

群等变深度强化学习

本文提出使用 Equivariant CNNs 训练强化学习智能体并研究其在对称变换方面的归纳偏差，结果表明在高度对称的环境中，使用 Equivariant CNNs 可以显著提高智能体的性能和样本效率，同时还需要更少的参数，而且它们对仿射变换引起的环境变化具有鲁棒性。

Jul, 2020

E (2) 等变图规划导航

学习机器人导航的关键和挑战性任务是通过欧几里得对称性进行二维导航的规划，以及开发一种等变消息传递网络来进行值迭代。同时，通过可学习的等变层将特征提升到所需空间以处理多相机输入，在固定和无结构环境中的五种任务评估的实验证实了训练效率、稳定性和泛化能力的显著优势。

Sep, 2023

MDP 同态网络：强化学习中的群对称性

本文介绍了一种基于 MDP 同态网络的深度强化学习方法，使用等变性约束将先验知识建立在策略和价值网络中，能够快速收敛，特别适用于格子世界和 CartPole 等问题。

Jun, 2020

混合对称下的软等变正则化

本文提出了一种基于正则化的方法，用于在具有混合近似对称性的数据集上构建模型，通过该方法可以依据每种对称性类型的等变正则化器训练模型，自动调整正则化器的强度，从而发现某些候选对称性类型的近似水平，同时在功能拟合和运动预测任务中展示了比以前的方法更高的精度。

Jun, 2023

欧几里德对称性在强化学习和规划中可行吗？

该研究论文探讨了改进机器人任务中有对称性的强化学习和规划算法的设计，算法在处理具有欧几里德群对称性的问题时表现出更好的性能。

Jul, 2023

通过重新参数化实现元学习对称性

这篇研究论文介绍了一种从数据学习平移对称性、提高深度学习在图像处理任务中的性能的方法，而非人为设计具有相应等变性质的架构，其通过学习相应的参数共享模式来实现对等变性的学习及编码，并且结果显示其成功替代了传统手动构建深度学习架构的方法。

Jul, 2020

三维环境下的子等变图强化学习

本文提出了一种新型的 3D-SGRL 体系结构，引入 Subequivariant Transformer (SET) 及几何对称性，用于广义物体的 RL 训练；在单任务、多任务和零样本泛化情形中验证过程证明了算法比现有方法更具实用性。

May, 2023

离线强化学习中的等变数据增强技术

我们提出了一种新的方法来解决离线强化学习中的泛化问题，通过学习动力学模型并检查其是否与固定类型的转换即状态空间中的平移等变，使用熵正则化增加等变集合并用结果转变的样本增强数据集，最后基于增强数据集使用现成的离线强化学习算法离线学习新策略，实验证明该方法可以大大提高对环境进行测试时的策略效果。

Sep, 2023

逆问题的等变神经网络

本文介绍一种使用群等变卷积神经网络来解决逆问题的学习重建方法，通过在迭代方法中建立群等变卷积神经网络解决拉伸同变的问题，实现了低剂量计算机断层成像重建和子采样磁共振成像重建的质量提升。

Feb, 2021

等变离线强化学习

通过使用有限数量的演示，本研究探讨了在离线强化学习中使用 $SO (2)$- 等变神经网络的可能性，并通过实验证明了等变性如何提高低数据情况下的离线学习算法。

Jun, 2024