强化学习中的新动作泛化

ICMLNov, 2020

Generalization to New Actions in Reinforcement Learning

Ayush Jain, Andrew Szot, Joseph J. Lim

TL;DR本研究提出了一个两阶段的框架来解决强化学习模型对新任务中无法适应新动作的问题，首先从任务中获取动作信息来推理动作表示，然后通过泛化目标训练灵活适应不同动作集的策略，在选择新动作解决物理推理谜题和新三维形状堆叠等顺序任务的基准测试中得到了推广。

Abstract

A fundamental trait of intelligence is the ability to achieve goals in the face of novel circumstances, such as making decisions from new action choices. However, standard reinforcement learning assumes a fixed set of actions and requires expensive retraining when given a new action se

reinforcement learning generalization policy sequential tasks physical reasoning puzzles

发现论文，激发创造

多任务深度强化学习中的零样本任务泛化

在强化学习中，我们介绍了一种新的强化学习问题，其中代理需要在学习解决子任务的有用技能后学习执行指令序列。我们考虑到先前未见的指令和更长的指令序列的泛化，为此，我们提出了一种基于类比的新目标和一个层次结构架构，并提出了一个新的神经网络架构来解决延迟奖励问题，实验结果表明这些提议对于泛化到较长指令序列以及未见指令是至关重要的。

Jun, 2017

从规约中归纳推理的强化学习

我们提出了一个新颖的归纳一般化框架，用于从逻辑规范中进行强化学习。该框架通过利用归纳任务之间的关系，学习生成适应归纳任务实例的策略生成器，以实现对长期任务中未见策略的广义化。

Jun, 2024

强化学习任务状态对应关系的学习，用于知识迁移

该研究提出了一种基于生成对抗网络模型的一对一转移学习方法，旨在解决深度强化学习中新任务的知识重用和泛化问题。

Sep, 2022

深度强化学习的广义计划

从小数据域中学习推导出可适用于远大于其所训练数据范围的领域的普遍性规则，本文研究了深度强化学习和图神经网络在学习这种广义策略的应用，并证明其具有普遍性。

May, 2020

零样本强化学习中的泛化探索

研究如何在强化学习的零样本泛化中，通过训练一个能够有效探索领域的行为策略，来克服先前面临的过拟合问题。该研究通过使用一套名为 “ExpGen” 的算法，在多个 ProcGen 挑战任务中实现了良好的实验效果，尤其是在迷宫和抢劫等与任务可视化相关深度度量难解的情形下。

Jun, 2023

深度强化学习中的泛化度量和特征描述

本篇论文重新审视了深度强化学习中表示学习的概念，并提出了几种定义，并在一个通用的测试任务上使用这些定义评估了算法的性能，结果表明代理在一些未被探索的状态下决策结果较差，这暗示我们需要更多的实验和分析，以支持表示学习的相关权利主张。

Dec, 2018

序列决策泛化学习

介绍了一种师徒模仿式学习方法和一种将强化学习模型转化为自然语言理解模型的方法，使得上下文化语言模型能够被引入顺序决策问题空间中，实现更好的学习速度和泛化能力。

Oct, 2020

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

深度 Q 学习中行动泛化差距的表征

该研究研究了深度强化学习中离散行动空间中的行动泛化能力，发现 Deep Q-Networks 仍能以较小的行动泛化差异在简单领域中实现行动泛化

May, 2022

深度强化学习中的泛化分析调查

通过利用深度神经网络解决高维状态或动作空间中的问题，强化学习研究在许多领域获得了显著的成功和关注。本文将概述深度强化学习策略遇到过拟合问题从而限制其鲁棒性和泛化能力的基本原因，并形式化和统一不同的解决方法来增加泛化能力并克服状态 - 动作值函数中的过拟合问题。我们相信我们的研究可以为当前深度强化学习的进展提供一个紧凑的系统统一分析，并有助于构建具有改进泛化能力的鲁棒深度神经策略。

Jan, 2024