强化学习中表征转移的可证明收益

May, 2022

强化学习中表征转移的可证明收益

Provable Benefits of Representational Transfer in Reinforcement Learning

Alekh Agarwal, Yuda Song, Wen Sun, Kaiwen Wang, Mengdi Wang...

TL;DR本研究探讨了强化学习中的表征传递问题，提出了一种基于预训练和生成访问的新方法，可以帮助在源任务中发现一个共享表征来快速收敛到一个接近最优策略的目标任务中。

Abstract

We study the problem of representational transfer in rl, where an agent first pretrains in a number of source tasks to discover a shared representation, which is subsequently used to learn a good policy in a \emp

rl representational transfer pretraining policy learning generative access

发现论文，激发创造

多任务深度强化学习中的知识共享

我们研究了在多任务强化学习中共享表示的益处，以实现深度神经网络的有效使用。我们利用从不同任务中学习、分享共同特性的假设，有助于推广知识，从而比学习单个任务更有效地进行特征提取。通过在广泛使用的强化学习基准上进行实证评估，我们提出了三种强化学习算法的多任务扩展，并证明了在样本效率和性能方面相较于单任务具有显著改进。

Jan, 2024

离线多任务转移强化学习与表示惩罚

我们研究了离线强化学习中的表示转移问题，提出了一种算法来计算学习表示的点态不确定性度量，并通过扩展数据的数据依赖上界证明了针对目标任务的学习策略的次优性。我们的算法利用源任务的集体探索来解决现有离线算法在一些点上覆盖不足的问题，并在需要完全覆盖的富观测马尔可夫决策过程上进行了实证评估，展示了惩罚和量化学习表示中的不确定性的益处。

Feb, 2024

从多个 MDPs 转移

本文研究利用源任务采集的经验来加速强化学习算法的传递强化学习方法，介绍了在源任务与目标任务之间相似度的基础上适应转移过程的新算法，并在一个连续链问题中报告了描绘性实验结果。

Aug, 2011

多任务模仿学习中表示转移的统计保证

通过多任务模仿学习的表征转移，可以比从零开始学习新任务更加高效地利用样本。本文提供了一个统计保证，表明在使用足够多样的源任务训练表征时，我们确实可以提高目标任务的样本利用效率。我们的理论结果可以轻松扩展到基于现实假设的常用神经网络结构。通过符合我们理论结果的实证分析，我们在四个模拟环境中得出结论：特别是更多地利用源任务的数据可以提高学习新任务的样本利用效率。

Nov, 2023

强化学习任务状态对应关系的学习，用于知识迁移

该研究提出了一种基于生成对抗网络模型的一对一转移学习方法，旨在解决深度强化学习中新任务的知识重用和泛化问题。

Sep, 2022

多任务表示学习在强化学习中的证明收益

本文首次从理论上研究了使用多任务表示学习来提高勘探性无奖励多任务强化学习中多个任务的样本效率，并证明了它比单独学习每个任务更加样本高效。此外，我们还研究了下游强化学习，并表明与直接学习低秩模型有所不同的是，从上游学习的表示更有利于下游强化学习。

Jun, 2022

基于多源转移学习的深度模型强化学习

本研究旨在提出多源模块化转移学习技术，以减少强化学习所需的环境交互次数并提高知识重用。我们支持这一技术的有效性，并进行了广泛而具有挑战性的视觉控制跨领域实验。

May, 2022

强化学习中的序列迁移与生成模型

本研究旨在探讨如何设计强化学习代理，通过从之前解决的任务中转移知识，明确减少学习新任务的样本复杂度。具体地，本文关注第二种目标，即当代理具有状态行为对的生成模型时，如何快速识别最精确的解法。我们将转移设置降至一个隐马尔可夫模型，并使用谱方法从中恢复其参数。最后，我们在简单的模拟领域中实证了我们的理论发现。

Jul, 2020

比较强化学习表征学习的辅助任务

生成表示在强化学习中得到了稳步流行，由于其在提高样本效率和许多环境中的回报方面的潜力。本文对常见的辅助任务进行了比较，基于数百个使用最先进的离策略强化学习算法训练的代理程序。发现显示，辅助任务的表示学习对于维度和复杂度较高的环境是有利的，并且学习环境动态性胜于预测奖励。我们相信这些洞察将使其他研究人员能够更明智地决定如何利用表示学习解决他们的特定问题。

Oct, 2023

多任务强化学习中的共享表示学习

本文探讨了多任务强化学习中一种范例，即在一个固定的环境中进行一系列任务的学习，介绍了一种共享结构模型，在状态 - 动作值空间中联合学习优化价值函数，从而提高数据效率并获得更健壮、更具潜力的可传递表征。

Mar, 2016