在黑盒元强化学习中引入对称性

AAAISep, 2021

Introducing Symmetries to Black Box Meta Reinforcement Learning

Louis Kirsch, Sebastian Flennerhag, Hado van Hasselt, Abram Friesen, Junhyuk Oh...

TL;DR本文研究了元强化学习中的对称性在元泛化中的作用，我们发现对称性和黑盒元强化学习系统中通常不存在的神经网络可以帮助提高算法泛化性能。通过实验验证，加入这些对称性可以使算法更好地推广到未见过的行动和观测空间、任务和环境之中。

Abstract

meta reinforcement learning (RL) attempts to discover new RL algorithms automatically from environment interaction. In so-called black-box approaches, the policy and the learning algorithm are jointly represented by a single →

meta reinforcement learning symmetries meta-generalisation black-box approach neural network

发现论文，激发创造

从对称性学习：具有对称数据和语言指示的元强化学习

提出了一种双 MDP 元强化学习方法，该方法将语言指令和对称数据结合到元 RL 中，能够显著提高元强化学习的泛化能力和学习效率。

Sep, 2022

强化学习中的函数逼近对称性学习

研究如何利用对称性以实现强化学习的样本效率，引入检测对称性的新方法，并证明其完整性；提供了将发现的对称性用于功能逼近的框架，并证明基于潜在效益的奖励塑形对于利用对称性特别有效；实验表明，利用对称性信息可以显著提高学习性能。

Jun, 2017

在轨迹数据中检测对称性以提供更有意义的强化学习表示

本研究提出了一种使用神经网络自动检测强化学习系统对称性并生成高级表示的方法，并在两个模拟环境中进行实验来证明此方法的可行性。

Nov, 2022

学习任务对称机器人策略的对称性考虑

通过数据增强和镜像损失函数的两种方法，将对称不变性纳入深度强化学习中，可在各种具有挑战性的机器人任务中实现更快收敛和改进的学习行为。

Mar, 2024

基于模型的元强化学习方法：变压器和树搜索

通过模型学习和在线计划，基于 Transformer 架构的模型算法在元强化学习问题的符号 Alchemy 环境中展示出比先前应用的基于模型无关的强化学习方法更好的性能，揭示了基于模型的方法在元学习的探索和利用方面的相关性和变现出复杂动态的 Transformer 架构的效率。

Aug, 2022

发现式策略优化

本文通过元学习 Mirror Learning 结构并发现一个闭合形式的强化学习算法 DPO，通过在 Brax 环境下的实验验证，证明 LPO 和 DPO 算法在性能上处于最先进的位置，并具有在未知环境中的转移能力。

Oct, 2022

机器学习中实施、发现和促进对称性的统一框架

提供了将对称性引入机器学习模型的一种统一的理论和方法框架，包括强制已知对称性、发现未知对称性和通过施加凸正则化函数来促进对称性等方面。

Nov, 2023

学习无关变量以实现策略泛化

本文研究机器学习领域中的强化学习问题，主要关注于学习能够适应不同环境的策略，探讨数据增强、元学习和对抗训练三种可能的策略泛化方法，发现数据增强方法是有效的，并研究了元学习和对抗学习作为替代的任务不可知方法的潜力。

Sep, 2018

深入挖掘：利用基本对称性，提高离线强化学习的样本效率

本文提出 Time-reversal symmetry enforced Dynamics Model 方法以增强离线 RL 在小数据集上表现，该方法可用于构建新的 TSRL 算法，对数据效率和泛化性能进行提升。

Jun, 2023

利用动力学中的对称性进行有偏向奖励的基于模型的强化学习

通过 Cartan 的运动参考系方法，我们提出了一种学习动力学模型的技术，该模型具有指定的对称性，并通过数值实验证明所提出的方法可以学习出更准确的动力学模型。

Mar, 2024