强化学习中的单集策略转移

Oct, 2019

Single Episode Policy Transfer in Reinforcement Learning

Jiachen Yang, Brenden Petersen, Hongyuan Zha, Daniel Faissol

TL;DR为了实现在只进行一次尝试的测试时间内进行最优化，特别是在没有对丰富奖励的访问权下，我们提出了一种通用算法，该算法通过优化探针和推理模型来快速估计测试动态的潜在变量，然后立即将其用作通用控制策略的输入。这种模块化方法可以集成最先进的变分推理算法或强化学习算法，并且不需要在测试时间访问奖励，可以在现有的自适应方法无法适应的设置中执行，是一种优秀的迁移方式。

Abstract

Transfer and adaptation to new unknown environmental dynamics is a key challenge for reinforcement learning (RL). An even greater challenge is performing near-optimally in a single attempt at →

transfer learning adaptation reinforcement learning latent variables test time

发现论文，激发创造

环境探测交互策略

通过引入 EPI-policy，该研究提出了一种新的强化学习策略，可在新环境中提取环境特定信息，并将其作为附加输入提高任务特定策略的性能，并基于转移预测能力的奖励函数进行学习。在新环境中，这种 EPI 策略比通常使用的策略泛化方法要有效得多。

Jul, 2019

想象价值梯度：基于模型的策略优化和可转移的潜在动态模型

本文研究如何通过模型驱动的增强学习方法促进任务转移，提出了基于动作条件的预测模型学习算法，用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。

Oct, 2019

具有潜在动态信息的可证明样本效率强化学习

本文研究了在观测结果高维的情况下，强化学习智能体如何使用对状态空间结构的抽象知识来学习目标领域中的任务。提出了一种名为 TASID 的算法，该算法学习目标任务的健壮策略，其采样复杂度是地平线次数的多项式，并且可以利用先前的知识独立于状态数。

May, 2022

面向参数变化系统的模型自适应强化学习控制中的样本高效迁移

本文利用模型控制的思想解决了强化学习算法的样本效率问题，并通过四个基准实例验证了其性能。

May, 2023

一种基于优势的强化学习策略迁移算法及其可迁移性度量

本文提出了一种基于收益的策略转移算法 APT-RL，用于在固定领域环境中的强化学习，通过使用 “优势” 作为正则项，避免了启发式选择算法设计，并提出了一种新的转移性能度量来评估算法的性能并统一现有的转移强化学习框架，实验证明在大多数任务上 APT-RL 的性能优于现有的转移强化学习算法，并且比从零开始学习更加高效。

Nov, 2023

VPE: 变分策略嵌入用于迁移强化学习

本文研究了如何在不同领域中转移知识和适应环境，提出了使用基于 Q 函数的方法来寻找一个可适应不同潜在变量值的主策略，使用低维潜在变量生成映射和近似后验概率来识别新任务的策略。并将该方法应用于模拟的摆起任务和推动任务的转移上。

Sep, 2018

多任务强化学习的样本复杂度

介绍了一种新的多任务算法用于强化学习任务，该算法显着减少了探索的每个任务的样本复杂性，并保证不会出现负转移，与对应的单任务算法相比具有可比性。

Sep, 2013

强化学习中的序列迁移与生成模型

本研究旨在探讨如何设计强化学习代理，通过从之前解决的任务中转移知识，明确减少学习新任务的样本复杂度。具体地，本文关注第二种目标，即当代理具有状态行为对的生成模型时，如何快速识别最精确的解法。我们将转移设置降至一个隐马尔可夫模型，并使用谱方法从中恢复其参数。最后，我们在简单的模拟领域中实证了我们的理论发现。

Jul, 2020

自适应策略转移的高效深度强化学习

本研究提出了一种名为 “Policy Transfer Framework” 的框架，该框架采用多策略转移方式对强化学习中的目标策略进行直接优化，可以很方便地与现有的深度强化学习方法相结合，实验结果表明，该框架明显加速了学习过程，并在离散和连续动作空间中超越了现有的策略转移方法，具有较高的学习效率和最终性能。

Feb, 2020

零样本迁移在模仿学习中的应用

我们提出了一种学习模仿专家行为并能在以前未见过的领域进行迁移学习的算法。通过使用 AnnealedVAE 来学习一个解缠缚状态表示，并通过学习一个单一的 Q 函数来模仿专家，我们结合了深度强化学习中的最新进展，从而克服了奖励函数设计的困难、在不同领域部署已学习策略的困难，以及直接在现实世界中学习由于安全问题而昂贵或不可行的问题。在 3 个环境中展示了我们方法的有效性，这些环境的难度和迁移知识类型各不相同。

Oct, 2023