强化学习中的序列迁移与生成模型

ICMLJul, 2020

强化学习中的序列迁移与生成模型

Sequential Transfer in Reinforcement Learning with a Generative Model

Andrea Tirinzoni, Riccardo Poiani, Marcello Restelli

TL;DR本研究旨在探讨如何设计强化学习代理，通过从之前解决的任务中转移知识，明确减少学习新任务的样本复杂度。具体地，本文关注第二种目标，即当代理具有状态行为对的生成模型时，如何快速识别最精确的解法。我们将转移设置降至一个隐马尔可夫模型，并使用谱方法从中恢复其参数。最后，我们在简单的模拟领域中实证了我们的理论发现。

Abstract

We are interested in how to design reinforcement learning agents that provably reduce the sample complexity for learning new tasks by transferring knowledge from previously-solved ones. The availability of soluti

reinforcement learning agents sample complexity transferring knowledge generative model hidden markov model

发现论文，激发创造

多任务强化学习的样本复杂度

介绍了一种新的多任务算法用于强化学习任务，该算法显着减少了探索的每个任务的样本复杂性，并保证不会出现负转移，与对应的单任务算法相比具有可比性。

Sep, 2013

强化学习任务状态对应关系的学习，用于知识迁移

该研究提出了一种基于生成对抗网络模型的一对一转移学习方法，旨在解决深度强化学习中新任务的知识重用和泛化问题。

Sep, 2022

强化学习中表征转移的可证明收益

本研究探讨了强化学习中的表征传递问题，提出了一种基于预训练和生成访问的新方法，可以帮助在源任务中发现一个共享表征来快速收敛到一个接近最优策略的目标任务中。

May, 2022

有限模型的多臂赌博机中的连续转移

本文着重研究在线学习中的顺序迁移问题，尤其是在多臂赌博机框架中，引入了一种基于矩阵方法的赌博算法，推导出了它的遗憾界。

Jul, 2013

具有潜在动态信息的可证明样本效率强化学习

本文研究了在观测结果高维的情况下，强化学习智能体如何使用对状态空间结构的抽象知识来学习目标领域中的任务。提出了一种名为 TASID 的算法，该算法学习目标任务的健壮策略，其采样复杂度是地平线次数的多项式，并且可以利用先前的知识独立于状态数。

May, 2022

可证明高效因果模型强化学习用于系统化泛化

该论文提出了一种基于因果视角的可行的系统性泛化的公式，并基于特定的结构假设提供了一种简单的学习算法，以多项式样本复杂度保证任何所需的规划误差。

Feb, 2022

面向参数变化系统的模型自适应强化学习控制中的样本高效迁移

本文利用模型控制的思想解决了强化学习算法的样本效率问题，并通过四个基准实例验证了其性能。

May, 2023

用于强化学习的快速生成模型的学习和查询

在模型基强化学习中，精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述，并且显著降低动作序列预测的计算成本。在广泛的实验中，状态空间模型可以精确捕捉 Atari 游戏的动态，并且提供了高速计算，这使它们在强化学习的决策中具有实用价值。

Feb, 2018

基于多源转移学习的深度模型强化学习

本研究旨在提出多源模块化转移学习技术，以减少强化学习所需的环境交互次数并提高知识重用。我们支持这一技术的有效性，并进行了广泛而具有挑战性的视觉控制跨领域实验。

May, 2022

强化学习中的单集策略转移

为了实现在只进行一次尝试的测试时间内进行最优化，特别是在没有对丰富奖励的访问权下，我们提出了一种通用算法，该算法通过优化探针和推理模型来快速估计测试动态的潜在变量，然后立即将其用作通用控制策略的输入。这种模块化方法可以集成最先进的变分推理算法或强化学习算法，并且不需要在测试时间访问奖励，可以在现有的自适应方法无法适应的设置中执行，是一种优秀的迁移方式。

Oct, 2019