多任务强化学习的样本复杂度
本研究旨在探讨如何设计强化学习代理,通过从之前解决的任务中转移知识,明确减少学习新任务的样本复杂度。具体地,本文关注第二种目标,即当代理具有状态行为对的生成模型时,如何快速识别最精确的解法。我们将转移设置降至一个隐马尔可夫模型,并使用谱方法从中恢复其参数。最后,我们在简单的模拟领域中实证了我们的理论发现。
Jul, 2020
本文研究利用源任务采集的经验来加速强化学习算法的传递强化学习方法,介绍了在源任务与目标任务之间相似度的基础上适应转移过程的新算法,并在一个连续链问题中报告了描绘性实验结果。
Aug, 2011
本研究探讨了改进多任务训练以及在强化学习环境中的传递的潜力,提出了一种参数组合的方法来处理这一挑战,并通过在不同的操作任务上进行传递实验以证明其有效性。
Jun, 2023
我们研究了在多任务强化学习中共享表示的益处,以实现深度神经网络的有效使用。我们利用从不同任务中学习、分享共同特性的假设,有助于推广知识,从而比学习单个任务更有效地进行特征提取。通过在广泛使用的强化学习基准上进行实证评估,我们提出了三种强化学习算法的多任务扩展,并证明了在样本效率和性能方面相较于单任务具有显著改进。
Jan, 2024
本文提出了一种基于注意力机制的多任务深度强化学习方法,该方法可以自动将任务知识分组,并在可能的情况下实现积极的知识转移,避免任务干扰,并表现出可比较或优越的性能。
Jul, 2019
本研究旨在提出多源模块化转移学习技术,以减少强化学习所需的环境交互次数并提高知识重用。我们支持这一技术的有效性,并进行了广泛而具有挑战性的视觉控制跨领域实验。
May, 2022
通过在多个任务上进行训练,可以证明多任务强化学习(MTRL)中基于共享结构的一般性策略共享算法具有适用于样本高效率的 myopic 探索设计,这是首次理论证明了 MTRL 的 “探索优势”。而多样性任务集的验证实验证明任务选择与自动课程学习相一致,在合成机器人控制环境的实验中改善了样本效率。
Mar, 2024
本文分析了多任务学习的信息传递动态,并开发了可量化任务间信息转移的相似度度量方法,从而使得我们在宏观和微观层面上提出了两种方法来优化多任务学习性能,这些方法在三个监督式多任务学习基准和一个多任务强化学习范式上都有显著改进。
Oct, 2020
我们研究了离线强化学习中的表示转移问题,提出了一种算法来计算学习表示的点态不确定性度量,并通过扩展数据的数据依赖上界证明了针对目标任务的学习策略的次优性。我们的算法利用源任务的集体探索来解决现有离线算法在一些点上覆盖不足的问题,并在需要完全覆盖的富观测马尔可夫决策过程上进行了实证评估,展示了惩罚和量化学习表示中的不确定性的益处。
Feb, 2024
本研究探讨了强化学习中的表征传递问题,提出了一种基于预训练和生成访问的新方法,可以帮助在源任务中发现一个共享表征来快速收敛到一个接近最优策略的目标任务中。
May, 2022