多任务强化学习中的高效短视探索

Mar, 2024

多任务强化学习中的高效短视探索

Sample Efficient Myopic Exploration Through Multitask Reinforcement Learning with Diverse Tasks

Ziping Xu, Zifan Xu, Runxuan Jiang, Peter Stone, Ambuj Tewari

TL;DR通过在多个任务上进行训练，可以证明多任务强化学习（MTRL）中基于共享结构的一般性策略共享算法具有适用于样本高效率的 myopic 探索设计，这是首次理论证明了 MTRL 的 “探索优势”。而多样性任务集的验证实验证明任务选择与自动课程学习相一致，在合成机器人控制环境的实验中改善了样本效率。

Abstract

multitask reinforcement learning (MTRL) approaches have gained increasing attention for its wide applications in many important Reinforcement Learning (RL) tasks. However, while recent advancements in MTRL theory have focused on the improved statistical efficiency by assuming a shared

multitask reinforcement learning exploration policy-sharing algorithm sample-efficiency diversity

发现论文，激发创造

通过选择性行为共享实现高效多任务强化学习

多任务强化学习中，通过共享行为可大幅提高探索效率和最终性能

Feb, 2023

混合正交专家的多任务强化学习

多任务强化学习 (MTRL) 通过共享表示，来克服代理程序普适性技能泛化的长期问题，本文介绍了在 MTRL 中学习共享多样性表示的一种新方法，称为 MOORE，它通过专家混合生成的表示的共享子空间来促进任务之间的多样性，研究表明 MOORE 在 MiniGrid 和 MetaWorld 两个基准测试中超过了其他相关基线，成为 MetaWorld 领域的最新技术成果。

Nov, 2023

多任务强化学习的样本复杂度

介绍了一种新的多任务算法用于强化学习任务，该算法显着减少了探索的每个任务的样本复杂性，并保证不会出现负转移，与对应的单任务算法相比具有可比性。

Sep, 2013

强化学习中的无任务探索

该研究提出了一种称为任务不可知强化学习 (task-agnostic RL) 的框架，用于解决强化学习中的有效探索挑战，该框架利用样本奖励值和一系列探索轨迹来发现复杂任务的最优策略，并给出了基于样本奖励值的有效算法 UCBZero。

Jun, 2020

基于探索性任务聚类的元强化学习

利用聚类方法探索任务结构，缩小任务特定信息的搜索空间，提高元强化学习的采样效率和策略适应能力。

Feb, 2023

具有经验共享的分布式多任务强化学习的扩展

本文针对分布式多任务强化学习进行研究，提出了一种名为 DistMT-LSVI 的算法，可以在具有不同任务的环境中学习到针对所有任务的 ε- 最优策略，并通过理论和实验证实了该算法能够显著提高非分布式设置的样本复杂性。

Jul, 2023

多任务深度强化学习中的知识共享

我们研究了在多任务强化学习中共享表示的益处，以实现深度神经网络的有效使用。我们利用从不同任务中学习、分享共同特性的假设，有助于推广知识，从而比学习单个任务更有效地进行特征提取。通过在广泛使用的强化学习基准上进行实证评估，我们提出了三种强化学习算法的多任务扩展，并证明了在样本效率和性能方面相较于单任务具有显著改进。

Jan, 2024

通过任务特定的动作修正实现高效多任务强化学习

多任务强化学习中，通过引入任务特定的动作修正方法可以提高机器人的泛化能力，解决任务之间的冲突和负面干扰问题。该方法通过将策略学习分解为共享策略和动作修正策略，并引入稀疏奖励和拉格朗日方法，有效解决多目标多任务强化学习问题，实验结果显示其在样本效率和行为执行有效性上明显优于现有的方法。

Apr, 2024

多任务强化学习中的共享表示学习

本文探讨了多任务强化学习中一种范例，即在一个固定的环境中进行一系列任务的学习，介绍了一种共享结构模型，在状态 - 动作值空间中联合学习优化价值函数，从而提高数据效率并获得更健壮、更具潜力的可传递表征。

Mar, 2016

元强化学习的探索与利用解耦，无需牺牲

本文提出一种基于策略梯度优化的元强化学习方法，该方法不但可以在学习新任务时快速利用之前相关任务的经验，还能自动识别任务相关信息来避免局部最优解。实验结果表明，该方法可以有效解决如稀疏奖励 3D 视觉导航等复杂问题。

Aug, 2020