可规划的 MDP 同态逼近：在行动下的等变性

Feb, 2020

可规划的 MDP 同态逼近：在行动下的等变性

Plannable Approximations to MDP Homomorphisms: Equivariance under Actions

Elise van der Pol, Thomas Kipf, Frans A. Oliehoek, Max Welling

TL;DR该研究利用行动等变性原理进行表示学习，提出了一种对学习到的表示进行行动等变性限制的对比损失函数并证明了当损失函数为零时的决策过程是同态的。该方法能够获得效果更好的表示并具有更好的泛化能力。

Abstract

This work exploits action equivariance for representation learning in reinforcement learning. Equivariance under actions states that trans

action equivariance reinforcement learning representation learning latent spaces value iteration

发现论文，激发创造

一种使用学习 MDP 同态的状态 - 动作抽象简易方法

提出了一种新方法，即等效效果抽象，该方法利用环境动态的部分模型推断导致相同状态的状态动作对，从而将状态动作空间的大小减少一个等于动作空间基数的因子，以提高采样效率和规划效率。在网格世界环境下，通过实验证明，等效效果抽象可以在模型自由设置和基于模型的方法的规划效率中提高采样效率。此外，通过在车杆环境中进行实验，还表明本方法比现有方法更优秀，在使用 33 倍少的训练数据的情况下实现了更好的表现。

Sep, 2022

MDP 同态网络：强化学习中的群对称性

本文介绍了一种基于 MDP 同态网络的深度强化学习方法，使用等变性约束将先验知识建立在策略和价值网络中，能够快速收敛，特别适用于格子世界和 CartPole 等问题。

Jun, 2020

存在对称性和状态抽象的策略梯度方法

本研究旨在通过抽象来提高强化学习在高维度和复杂问题上的效率和泛化能力，并在连续控制环境中研究抽象的概念，提出了一系列基于异构度量的策略梯度算法以及具有连续对称性的环境来证明该算法的效果，结果表明该算法利用 MDP 同态性进行表示学习可以提高其性能。

May, 2023

通过对比表示学习使线性 MDPs 具有实用性

本研究提出了利用对比估计自动保证规范化的线性马尔可夫决策过程（MDPs）的可行性，实现了优秀的理论保证和实证性能，并引入了信心调整指数算法，实现了在面对不确定性时的高效和本质的乐观（或悲观）策略。

Jul, 2022

映射路径规划中具等变性的模型集与正则化

强化学习中，利用环境对称性可以提高效率、鲁棒性和性能。本文提出了一种构建等变策略和不变值函数的方法，而无需使用专门的神经网络组件，并在训练过程中添加了正则化项以增加归纳偏置。通过基于地图的路径规划案例研究，展示了等变集合和正则化对样本效率和性能的改进。

Mar, 2024

自动驾驶运动预测的等变映射和代理几何

在自动驾驶中，深度学习实现的动作预测是一个热门话题。这项研究引入了一种具备几何等变性和交互不变性的突破性移动预测模型 EqMotion，在自动驾驶中融合了代理等变的高清地图特征，实现了上下文感知的准确运动预测。这些技术的应用使得我们的模型在保持轻量设计和高效数据利用的同时，能够实现高准确度的预测。

Oct, 2023

无监督学习群不变和等变表示

本文针对深度学习的无监督学习，将群不变和群等变表示学习扩展到了该领域。我们提出了一种基于编码器 - 解码器框架的通用学习策略，其中潜在表示被分为不变项和等变群作用项。在利用预测适当的群作用来对齐输入和输出姿势以解决重建任务时，网络可以学习将数据编码和解码为群不变表示。我们导出依变编码器的必要条件，并针对旋转，平移和置换明确描述了我们的构造。我们在不同网络架构下使用不同数据类型进行各种实验，测试了我们方法的有效性和鲁棒性。

Feb, 2022

用于计算马尔可夫决策过程近似最优解的模型简化技术

介绍了一种新方法，用于解决具有非常大状态空间的隐式（分解式）马尔可夫决策流程（MDPs）。该方法通过 epsilon-homogeneous 分区算法将大型 MDP 转化为较小的 BMDP 以分析大型隐式 MDPs。

Feb, 2013

超越马尔可夫决策过程的同态性能保证

通过扩展 Extreme State Aggregation（ESA）框架到联合状态 - 动作聚合，同时解除 ESA 中聚合的策略统一性条件，可以实现更粗糙的真实环境建模，进而将更多状态聚合起来，即使状态空间复杂庞大，也可以保证近乎最优的性能。

Nov, 2018

非自由群作用的等变表示

本研究介绍了一种方法，用于学习相对于数据的一般群作用等变的表示。该方法适用于非自由的行动，即通过非平凡的对称性稳定数据的行动。该方法基于群论中的轨道稳定子定理，保证理想学习者推断同构表示。最后，我们对具有旋转对称性的图像数据集进行了实证研究，并表明，考虑稳定子可以提高表示的质量。

Jan, 2023