深度强化学习中的层级采样过程对零样本推广的影响

Oct, 2023

深度强化学习中的层级采样过程对零样本推广的影响

How the level sampling process impacts zero-shot generalisation in deep reinforcement learning

Samuel Garcin, James Doran, Shangmin Guo, Christopher G. Lucas, Stefano V. Albrecht

TL;DR通过采用非均匀采样策略和自监督环境设计方法，解决深度强化学习中自主代理在新环境中泛化能力有限的问题。

Abstract

A key limitation preventing the wider adoption of autonomous agents trained via deep reinforcement learning (RL) is their limited ability to generalise to new environments, even when these share similar character

autonomous agents deep reinforcement learning zero-shot generalisation adaptive sampling strategies self-supervised environment design

发现论文，激发创造

ICED：通过上下文环境设计在强化学习中实现零 - shot 转移

通过对深度强化学习的自主代理进行研究，发现优先选择基于值损失最小化的级别可以最小化代理内部表示与训练数据集之间的相互信息，提出了一种新的理论解释适应性采样策略的合理性；另外，引入了上下文环境设计（ICED）方法，通过使用训练好的变分自动编码器在一组初始级别参数上进行级别生成，减少数据偏差，并在零样本泛化性上取得显著改进。

Feb, 2024

推断行为特定的上下文在强化学习中提升零样本泛化能力

本文中，我们在强化学习中解决了零样本泛化的挑战，通过理解和利用环境的上下文线索，将上下文表示的学习与策略学习相结合，提出了一种算法。我们的算法在各种模拟域中展示了改进的泛化能力，在零样本情境中优于先前的上下文学习技术。通过同时学习策略和上下文，我们的方法获得了特定行为的上下文表示，在未知环境中实现了适应，并在实现跨不同真实世界任务的强化学习系统上取得了进展。

Apr, 2024

通过程序化关卡生成，照亮深度强化学习的泛化问题

本文探讨了通过在训练中使用过程化生成的关卡如何增加模型的泛化性能，并研究了其与人类设计的关卡的关系。结果表明，通过降低难度、调整关卡设计，可以获得更好的性能表现，并进行了降维和聚类分析来评估关卡生成器的分布。

Jun, 2018

优先级别回放

本研究提出了一种名为 PLR 的新方法，在深度强化学习中使用优先级重放机制来选择下一个训练级别，通过适当的训练级别采样，PLR 在 Procgen 基准测试上显著提高样本效率和泛化能力，并超过了以前的最佳结果。

Oct, 2020

实例自适应原型对比嵌入在广义零样本学习中的应用

我们提出了一种基于边界的原型对比学习嵌入网络来提高嵌入空间中表示的质量，并提出了一种实例自适应对比损失来实现未知标签的广义表示，实验表明我们的方法在三个基准数据集上优于现有技术，并在广义零样本学习设置下始终获得最佳的未知性能。

Sep, 2023

非监督环境设计引发的新兴复杂性和零 - shot 迁移

本文提出一种名为 “PAIRED” 的技术，可自动设计一系列结构化的智能环境用于训练机器学习模型，实验证明 PAIRED 相较于传统方法在零样本迁移学习及新颖环境下的测试表现更优。

Dec, 2020

学习基于图的先验知识用于广义零样本学习

本篇论文研究了利用标签信息、属性以及关系图加强零样本学习和广义零样本学习，基于这个方法，本文在 CUB 和 SUN 数据集上取得了比强基线更好的结果。

Oct, 2020

无监督环境设计中的随机不确定性建模

SAMLR 是一种适应性课程学习方法，可以在避免课程诱导的协变量漂移的情况下优化环境序列，保证在真实环境下最大化效用函数，实现强化学习中的最小后悔策略。

Jul, 2022

回放引导的对抗环境设计

本文介绍了一种基于无监督环境设计的强化学习范例，叫做双重课程设计，其中使用了具有优先级的等级重放采样和对抗性策略改进方式，并在零样本迁移任务中得到了比以往更好的效果。

Oct, 2021

广义零样本学习方法综述

本文综述了广义零样本学习（GZSL）的问题及挑战，展示了一种分层分类方法，并讨论了每个类别中的代表性方法，同时探讨了 GZSL 可用的基准数据集和应用以及未来研究方向。

Nov, 2020