推断行为特定的上下文在强化学习中提升零样本泛化能力

Apr, 2024

推断行为特定的上下文在强化学习中提升零样本泛化能力

Inferring Behavior-Specific Context Improves Zero-Shot Generalization in Reinforcement Learning

Tidiane Camaret Ndir, André Biedenkapp, Noor Awad

TL;DR本文中，我们在强化学习中解决了零样本泛化的挑战，通过理解和利用环境的上下文线索，将上下文表示的学习与策略学习相结合，提出了一种算法。我们的算法在各种模拟域中展示了改进的泛化能力，在零样本情境中优于先前的上下文学习技术。通过同时学习策略和上下文，我们的方法获得了特定行为的上下文表示，在未知环境中实现了适应，并在实现跨不同真实世界任务的强化学习系统上取得了进展。

Abstract

In this work, we address the challenge of zero-shot generalization (ZSG) in reinforcement learning (RL), where agents must adapt to entire

zero-shot generalization reinforcement learning contextual cues policy learning generalization

发现论文，激发创造

ICED：通过上下文环境设计在强化学习中实现零 - shot 转移

通过对深度强化学习的自主代理进行研究，发现优先选择基于值损失最小化的级别可以最小化代理内部表示与训练数据集之间的相互信息，提出了一种新的理论解释适应性采样策略的合理性；另外，引入了上下文环境设计（ICED）方法，通过使用训练好的变分自动编码器在一组初始级别参数上进行级别生成，减少数据偏差，并在零样本泛化性上取得显著改进。

Feb, 2024

梦想着众多世界：学习上下文世界模型助于零样本泛化

提出了一种称为 cRSSM 的上下文循环状态空间模型，该模型通过将上下文与观察值结合起来，改进了 Dreamer 的世界模型，从而提高了在未见上下文情况下训练的策略的零 - shot 泛化能力。

Mar, 2024

自适应上下文强化学习

研究智能自主机器人如何通过新方法中的相对熵奖励学习算法来提高样本效率并使学习扩展到更广泛和尖锐的任务上。

Oct, 2019

面向上下文的零样本学习用于物体识别

本文提出了一种基于语义表示的全新的 Zero-Shot Learning 方法，并引入了上下文因素提高了对象的分类效果，通过在 Visual Genome 上进行的实验表明，增加上下文信息可以显著提高标准的 ZSL 方法。

Apr, 2019

变动动作空间下的环境感知强化学习

基于强化学习算法的学习历史的监督预训练，通过与环境的交互，能够捕捉学习过程并在上下文中改善对新任务的处理。然而，现有文献在上下文泛化到新行为空间方面仍存在差距。本研究旨在开发一种专门用于泛化到新行为空间的架构和训练方法，通过预测行为嵌入来消除对行为数量的依赖，并使用随机嵌入来增加对上下文的语义推理能力和准备测试时的新未见嵌入。通过多臂赌博环境的实验，证明了我们的模型能够在不需要重新训练的情况下达到数据生成算法的性能。

Dec, 2023

基于上下文感知的模型动态学习在强化学习中的泛化应用

该论文提出了一种用于强化学习中学习动态全局模型的方法，通过将学习全局动态模型的任务分解为学习本地动态的上下文潜向量和条件预测下一个状态来实现此目的，并通过鼓励上下文潜向量在预测正向和反向动态方面有用来编码动态特定信息。该方法在各种模拟机器人控制任务中实现了优异的泛化能力，超过了现有的强化学习方案。

May, 2020

深度强化学习中的层级采样过程对零样本推广的影响

通过采用非均匀采样策略和自监督环境设计方法，解决深度强化学习中自主代理在新环境中泛化能力有限的问题。

Oct, 2023

强化学习中的新动作泛化

本研究提出了一个两阶段的框架来解决强化学习模型对新任务中无法适应新动作的问题，首先从任务中获取动作信息来推理动作表示，然后通过泛化目标训练灵活适应不同动作集的策略，在选择新动作解决物理推理谜题和新三维形状堆叠等顺序任务的基准测试中得到了推广。

Nov, 2020

广义零样本学习在野外物体识别中的实证研究与分析

本文提出可以解决识别来自已知类别与未知类别的图像的冲突的校准方法，探讨了零样本学习的 generalized zero-shot learning 的问题，并提出了评估模型性能的评价指标。研究结果表明当前模型表现与理想语义嵌入间的差异，强调改进类别语义嵌入对于 GZSL 的重要性。

May, 2016

分层强化学习用于具有子任务依赖性的零样本普适性

提出了一种新的强化学习问题，该问题需要代理在一个由子任务图描述的先前未见的环境中进行泛化，我们提出了一种神经子任务图求解器，通过使用递归神经网络嵌入来编码子任务图，并用基于梯度的策略，图奖励传播来预训练它，进一步通过演员 - 评论家方法微调它，实验结果表明，我们的代理可以进行复杂的推理，找到执行子任务图的近似最优方式，并且在未见的子任务图上具备很好的泛化性能。

Jul, 2018