一个解决方案并不足以满足所有需求：基于结构化的最大熵强化学习的少样本外推

Oct, 2020

一个解决方案并不足以满足所有需求：基于结构化的最大熵强化学习的少样本外推

One Solution is Not All You Need: Few-Shot Extrapolation via Structured MaxEnt RL

Saurabh Kumar, Aviral Kumar, Sergey Levine, Chelsea Finn

TL;DR本文提出一种基于多样性推动的强化学习方法，能够学习多种解决任务的行为，从而实现能够适应多变环境和任务的泛化能力，同时，文中理论和实验结果表明，此方法能够产生一个健壮性环境集合。

Abstract

While reinforcement learning algorithms can learn effective policies for complex tasks, these policies are often brittle to even minor task variations, especially when variations are not explicitly provided during training. One natural approach to this problem is to train agents with m

reinforcement learning task variation diverse behaviors generalization robustness set

发现论文，激发创造

多样性应对不确定性：学习多样化行为以实现高效适应和迁移

基于转移学习的强化学习智能体在发现给定任务的所有有用解决方案方面至关重要，以应对任务或转移动力学的变化。我们提出了一种简单的方法来发现给定任务的所有可能解决方案，以获得在转移设置中表现良好并能够快速适应任务或转移动力学变化的智能体。我们的方法迭代地学习一组策略，而每个后续策略都受到所有先前策略下的不太可能解决方案的约束。与以往的方法不同，我们的方法不需要学习额外的新颖性检测模型，并通过直接将约束融入行动选择和优化步骤中，避免了任务和新颖性奖励信号的平衡。

Oct, 2023

离线强化学习中从单个任务中发现多个解决方案

通过研究在线强化学习，在少样本适应新环境的情况下，从一个任务中学习多种行为的优势已经被证明。然而，在离线强化学习中，学习多个解决方案的适当方法并未在先前研究中得到充分探讨。本研究因此解决了在离线强化学习中从单个任务中找到多个解决方案的问题。我们提出了一些可以在离线强化学习中学习多个解决方案的算法，并通过实证研究了它们的性能。实验结果表明，所提出的算法在离线强化学习中学习到了多个在质量和数量上都有显著差异的解决方案。

Jun, 2024

多重不确定性集合上的鲁棒策略学习

本文提出了一个更加通用的解决方案来解决强化学习中的鲁棒性问题，设计了一种算法，该算法结合了系统识别和鲁棒强化学习的优点，解决在不同情况下的不确定性问题，并在多个控制任务中获得了比之前方法更好的最坏情况执行性能。

Feb, 2022

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

如果最大熵强化学习是答案，那么问题是什么？

本文阐述了最大熵强化学习方法在解决某些具有奖励函数变异的控制问题中的优化作用，该方法还可以解决部分可观察马尔可夫决策过程且与双方博弈等效，其可以提供一定的洞见，指出在任务目标具有不确定性的领域中最大熵强化学习方法特别适用。

Oct, 2019

零样本强化学习中的泛化探索

研究如何在强化学习的零样本泛化中，通过训练一个能够有效探索领域的行为策略，来克服先前面临的过拟合问题。该研究通过使用一套名为 “ExpGen” 的算法，在多个 ProcGen 挑战任务中实现了良好的实验效果，尤其是在迷宫和抢劫等与任务可视化相关深度度量难解的情形下。

Jun, 2023

利用学习的策略基础进行规划以最优解决复杂任务

用继任特征学习策略基础，以解决具有非马尔可夫奖励规范的多个任务的广义问题，在有限状态自动机中描述的任务中，使用这些（子）策略的组合可以在无需额外学习的情况下生成最优解，与通过规划组合（子）策略的其他方法相比，本方法能达到全局最优性，即使在随机环境中也是如此。

Mar, 2024

用综合专业学习提高政策优化

本文提出了一种新的强化学习通用 - 专业训练框架，通过辅助奖励和权重克隆的方式，将先前的训练经历分为 “通用训练” 和 “专业训练”，以在不同环境下实现最佳政策学习。

Jun, 2022

强化学习中的单集策略转移

为了实现在只进行一次尝试的测试时间内进行最优化，特别是在没有对丰富奖励的访问权下，我们提出了一种通用算法，该算法通过优化探针和推理模型来快速估计测试动态的潜在变量，然后立即将其用作通用控制策略的输入。这种模块化方法可以集成最先进的变分推理算法或强化学习算法，并且不需要在测试时间访问奖励，可以在现有的自适应方法无法适应的设置中执行，是一种优秀的迁移方式。

Oct, 2019

自适应上下文强化学习

研究智能自主机器人如何通过新方法中的相对熵奖励学习算法来提高样本效率并使学习扩展到更广泛和尖锐的任务上。

Oct, 2019