零样本强化学习中的泛化探索

Jun, 2023

Explore to Generalize in Zero-Shot RL

Ev Zisselman, Itai Lavie, Daniel Soudry, Aviv Tamar

TL;DR研究如何在强化学习的零样本泛化中，通过训练一个能够有效探索领域的行为策略，来克服先前面临的过拟合问题。该研究通过使用一套名为 “ExpGen” 的算法，在多个 ProcGen 挑战任务中实现了良好的实验效果，尤其是在迷宫和抢劫等与任务可视化相关深度度量难解的情形下。

Abstract

We study zero-shot generalization in reinforcement learning - optimizing a policy on a set of training tasks such that it will perform well on a similar but unseen test task. To mitigate overfitting, previous wor

zero-shot generalization reinforcement learning policy optimization exploitation versus exploration trade-off ensemble of agents

发现论文，激发创造

探索前进：在深度强化学习中利用探索进行泛化

提供一种新的方法 Explore-Go，通过增加代理训练的状态数目，从而有效地增加代理的起始状态分布，以提高强化学习中的泛化性能。

Jun, 2024

学习无关变量以实现策略泛化

本文研究机器学习领域中的强化学习问题，主要关注于学习能够适应不同环境的策略，探讨数据增强、元学习和对抗训练三种可能的策略泛化方法，发现数据增强方法是有效的，并研究了元学习和对抗学习作为替代的任务不可知方法的潜力。

Sep, 2018

用综合专业学习提高政策优化

本文提出了一种新的强化学习通用 - 专业训练框架，通过辅助奖励和权重克隆的方式，将先前的训练经历分为 “通用训练” 和 “专业训练”，以在不同环境下实现最佳政策学习。

Jun, 2022

强化学习中的新动作泛化

本研究提出了一个两阶段的框架来解决强化学习模型对新任务中无法适应新动作的问题，首先从任务中获取动作信息来推理动作表示，然后通过泛化目标训练灵活适应不同动作集的策略，在选择新动作解决物理推理谜题和新三维形状堆叠等顺序任务的基准测试中得到了推广。

Nov, 2020

可转移的图探索学习

该研究考虑了人工智能中尚未开发过的环境在探索方面的问题，并提出了一种从环境分布中学习策略的方法，将其作为强化学习任务来处理，以期能够在最短的步数内访问尽可能多的独特状态。实验结果表明，该方法在空间地图探索和领域特定程序和现实世界移动应用的覆盖率导向软件测试方面表现出色。

Oct, 2019

多任务深度强化学习中的零样本任务泛化

在强化学习中，我们介绍了一种新的强化学习问题，其中代理需要在学习解决子任务的有用技能后学习执行指令序列。我们考虑到先前未见的指令和更长的指令序列的泛化，为此，我们提出了一种基于类比的新目标和一个层次结构架构，并提出了一个新的神经网络架构来解决延迟奖励问题，实验结果表明这些提议对于泛化到较长指令序列以及未见指令是至关重要的。

Jun, 2017

不变的策略优化：强化学习中更强的泛化能力

本研究针对强化学习中泛化性不足的问题，提出了一种基于不变性原则的学习算法 Invariance Policy Optimization (IPO)，该算法能够在训练过程中学习到一种不变策略，并能够在线性二次调节器和网格世界问题以及机器人学习开门问题上表现出良好的泛化性能。

Jun, 2020

通过程序化关卡生成，照亮深度强化学习的泛化问题

本文探讨了通过在训练中使用过程化生成的关卡如何增加模型的泛化性能，并研究了其与人类设计的关卡的关系。结果表明，通过降低难度、调整关卡设计，可以获得更好的性能表现，并进行了降维和聚类分析来评估关卡生成器的分布。

Jun, 2018

使用自监督的世界模型进行规程泛化

在本文中，我们评估了 MuZero 代理在程序化和任务通用性方面的性能，并通过比较自由模型代理，确定了模型代理的泛化能力。我们发现，计划、自监督表示学习和程序数据多样性是程序化通用性的三个因素，并表明结合这些技术可以实现出色的通用性性能和数据效率。然而，我们发现这些因素不总是为 Meta-World 中的任务通用性基准提供相同的好处。

Nov, 2021

一个解决方案并不足以满足所有需求：基于结构化的最大熵强化学习的少样本外推

本文提出一种基于多样性推动的强化学习方法，能够学习多种解决任务的行为，从而实现能够适应多变环境和任务的泛化能力，同时，文中理论和实验结果表明，此方法能够产生一个健壮性环境集合。

Oct, 2020