从对称性学习：具有对称数据和语言指示的元强化学习

Sep, 2022

从对称性学习：具有对称数据和语言指示的元强化学习

Learning from Symmetry: Meta-Reinforcement Learning with Symmetric Data and Language Instructions

Xiangtong Yao, Zhenshan Bing, Genghang Zhuang, Kejia Chen, Hongkuan Zhou...

TL;DR提出了一种双 MDP 元强化学习方法，该方法将语言指令和对称数据结合到元 RL 中，能够显著提高元强化学习的泛化能力和学习效率。

Abstract

meta-reinforcement learning (meta-RL) is a promising approach that enables the agent to learn new tasks quickly. However, most meta-RL algorithms show poor generalization in multiple-task scenarios due to the ins

meta-reinforcement learning language instructions symmetry generalization learning efficiency

发现论文，激发创造

在黑盒元强化学习中引入对称性

本文研究了元强化学习中的对称性在元泛化中的作用，我们发现对称性和黑盒元强化学习系统中通常不存在的神经网络可以帮助提高算法泛化性能。通过实验验证，加入这些对称性可以使算法更好地推广到未见过的行动和观测空间、任务和环境之中。

Sep, 2021

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

强化学习学习

本文提出了一种名为深度元强化学习的方法，该方法使用递归网络，在一个强化学习算法上进行训练，但其递归动态实现第二个、完全分离的强化学习过程，通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。

Nov, 2016

强化学习中的函数逼近对称性学习

研究如何利用对称性以实现强化学习的样本效率，引入检测对称性的新方法，并证明其完整性；提供了将发现的对称性用于功能逼近的框架，并证明基于潜在效益的奖励塑形对于利用对称性特别有效；实验表明，利用对称性信息可以显著提高学习性能。

Jun, 2017

学习任务对称机器人策略的对称性考虑

通过数据增强和镜像损失函数的两种方法，将对称不变性纳入深度强化学习中，可在各种具有挑战性的机器人任务中实现更快收敛和改进的学习行为。

Mar, 2024

利用对称先验进行多智体强化学习

本文提出了一个框架，通过整合数据增强和良好设计的一致性损失，利用先前的知识来改善现有的多智能体强化学习方法，该框架适用于大多数现有的多智能体强化学习算法，并在多项具有挑战性的任务上进行了实验验证其有效性，同时在物理多机器人测试平台上证明了该框架的优越性。

Jul, 2023

元强化学习的附带简易具身语言学习

该研究探讨了机器学习模型是否能够通过非语言任务间接学习语言，设计了一个含有变化语言环境和目的地的综合任务环境，通过元强化学习算法，培养出能够正确理解渐新语言和 floor plans 的智能体。

Jun, 2023

MetaRM: 通过元学习实现偏移分布对齐

利用元学习来解决环境分布变化引起的强化学习中奖励模型难以区分响应以及难以泛化到新例子的问题。

May, 2024

对于多样化任务和模型规模的鲁棒学习的对称强化学习损失

通过从有噪声数据中借鉴逆交叉熵（RCE）的方法将其适应于强化学习，定义了一种对称的 RL 损失，从而提高了 RL 训练的稳定性。在离散动作任务（Atari 游戏）和连续动作空间任务（MuJoCo 基准和 Box2D）中进行了实验，并通过改进 RLHF 任务的性能来验证对于大型语言模型使用 SPPO 的对称 RL 损失的好处，如 IMDB 正面情感和 TL;DR 摘要任务。

May, 2024

无监督元学习强化学习

本研究提出了一系列用于强化学习的无监督元学习算法，以解决通过任务提案进行任务训练而非手动任务设计所带来的算法设计负担，并得出这些程序具有优异性能的结论。

Jun, 2018