迈向可靠的长距离策略迁移

AAAIMar, 2021

Toward Robust Long Range Policy Transfer

Wei-Cheng Tseng, Jin-Siang Lin, Yao-Min Feng, Min Sun

TL;DR通过提出一种新的方法，我们利用分层结构来训练组合函数，并交替适应各种不同的原始策略，从而在具有挑战性的新任务中高效地生成一系列复杂的行为，同时设计了两个正则化项来提高原始策略的多样性和利用率。实验结果表明，我们的方法在连续行动空间任务中效果优于其他近期的策略转移方法，并且提供更广泛的传递范围。

Abstract

Humans can master a new task within a few trials by drawing upon skills acquired through prior experience. To mimic this capability, hierarchical models combining primitive policies learned from prior tasks have been proposed. However, these methods fall short comparing to the human's

hierarchical models primitive policies transferability regularization terms continuous action space

发现论文，激发创造

分层解耦模仿用于形态转移

通过将策略分解为独立学习的底层策略和可转移的高层策略，以简化形态的机器人为源，提出了一种层次化的策略转移方法，通过激励底层策略的学习，从而大幅提高了零样本高层策略的可转移性。同时，采用 KL 正则化训练高层策略会稳定学习并防止模式崩溃，进一步在一系列公共环境中验证了该方法的适用性。

Mar, 2020

分层强化学习中的子策略适应

本文提出了一种新的分层强化学习算法 HiPPO，它可以根据新任务的训练不断调整技能并与更高层次一起训练，该算法引入了一个无偏差的潜变量依赖基准的分层策略梯度，并提出了一种训练时抽象方法，以提高所获得技能对环境变化的鲁棒性。

Jun, 2019

元学习共享层级

本文提出了一种元学习方法，通过使用共享的基元，改进对未见过任务样本的样本效率，并提供了衡量其效果的具体指标；同时，通过重置任务特定策略并使用任何现成的强化学习方法，我们实现了这一方法的端到端解决方案，成功地在用四条腿的机器人互动的迷宫分布中发现了有意义的运动原语，并且将原语应用于解决长时间尺度的稀疏奖励障碍航线问题，从而使三维人形机器人能够稳健地行走和爬行。

Oct, 2017

策略优化的政策转移

本研究提出了一种基于域随机化的控制策略迁移方法，通过同时学习多种不同行为的控制策略来应对目标环境与训练环境之间的差异，而无需对动态参数进行识别，实验表明该方法可以成功地解决模型误差较大的情况。

Oct, 2018

使用深层分层网络生成长期轨迹

本文利用专家示范解决关于建模长时间轨迹的问题，通过提出一种层次化神经网络结构，能够在高维状态空间中，自动识别长短期目标，进而实现不同于传统方法由单一策略为核心，解决了传统方法在涉及长期行为建模上的局限。作者以模拟篮球运动轨迹的案例为例，通过专业体育分析师的判断得出，相较传统基准方法，作者提出的层次化策略能够生成更为真实的轨迹。

Jun, 2017

使用深度强化学习组合无关任务的策略

本文介绍了一种基于深度强化学习的技能转移和组合方法，该方法将智能体的原始策略应用到解决未知任务中，并可在高数据效率下解决需要任务规划和动作控制的挑战性环境。

May, 2019

无任务离线强化学习的潜在计划

本研究提出了一种层次化的方法，将模仿学习和离线强化学习的优点相结合，学习从高维相机观察中获得与任务无关的长时程策略，并通过技能链接来合并潜在的行为先验，以达到以前未见的技能组合，从而更好地控制机器人的实验结果。

Sep, 2022

使用广义策略更新构建迁移的良好行为基础

本文提出了一种简单有效的算法，通过构建独立的策略集合，可以在不需要大量数据的情况下，在各种复杂的强化学习任务中实现高水平的性能表现，同时解决了基于线性特征函数的多个任务的奖励子问题，并应用于终身强化学习设置中。

Dec, 2021

用于人形机器人控制的神经概率运动基元

利用神经概率运动原始系统可以离线训练解决灵活控制高维度物理仿真人形机器人的问题，同时最大限度地压缩数千个专家策略并学习运动原始嵌入空间。

Nov, 2018

基于任务关系建模的多智体策略迁移

本文提出了一种基于任务表示的团队适应方法，通过学习任务之间的共同结构，使得团队可以在少量的源任务学习之后将协作知识传递到新任务上。我们发现微调转移策略有助于解决那些从头开始难以学习的任务。

Mar, 2022