强化学习中的技能迁移：先验、层次和信息不对称性

Jan, 2022

强化学习中的技能迁移：先验、层次和信息不对称性

Priors, Hierarchy, and Information Asymmetry for Skill Transfer in Reinforcement Learning

Sasha Salter, Kristian Hartikainen, Walter Goodwin, Ingmar Posner

TL;DR通过对不对称选择的研究，提出了分层强化学习和 KL 正则化在技能传递方面的潜力，实验和理论结果展示了技能传递和表达能力间的权衡，并提出了一种基于不对称选择的技能选择方法。

Abstract

The ability to discover behaviours from past experience and transfer them to new tasks is a hallmark of intelligent agents acting sample-efficiently in the real world. Equipping embodied reinforcement learners with the same ability may be crucial for their successful deployment in robotics. While hierarchical and KL-regularized RL individually hold promise h

reinforcement learning asymmetric choice skills transfer hierarchical rl kl-regularization

发现论文，激发创造

学习技能先验加速强化学习

通过学习技能先验分布，将其用于最大熵强化学习，能够在导航和机器人操作任务中实现有效的技能传输。

Oct, 2020

接触丰富操作中的强化学习知识迁移

本文介绍了一种基于多个技能先验的强化学习方法，通过学习每个任务所需技能的先验分布，并将任务的相似性与先前的任务进行比较，以指导在新任务上学习策略，从而更好地推广到训练中从未遇到的新任务。

Sep, 2022

基于层次结构的 KL 正则化强化学习中的学习和迁移

本文提出一种基于 KL 正则化预期奖励目标的强化学习代理方法，它可以利用先验知识并在解决方案空间中利用可重复使用的结构，同时讨论了在增加潜在变量的情况下如何实现分层结构的不同归纳偏置以及其中的置换学习问题。实验证明，这种代理方法可以应用于不同的连续控制任务中，获得更快的学习和置换效果。

Mar, 2019

利用强化学习学习不变特征空间进行技能转移

本文介绍了一个强化学习算法，用于在不同形态的机器人中传递知识并实现多种技能的学习。模拟实验结果表明，我们可以在不同连接数和肌腱驱动和扭矩驱动机器人的模拟环境中传递知识和技能。

Mar, 2017

KL 正则化强化学习中的信息不对称

研究如何通过限制收集到的信息，学习可重用行为作为默认策略，从而加速和规范学习过程，同时探讨了该策略与信息瓶颈方法和变分 EM 算法之间的联系，并在离散和连续动作领域提出了经验结果。

May, 2019

层次化启动在强化学习技能转移中的应用

本文研究了如何将技能融入强化学习智能体的训练，提出了基于技能的新方法 Hierarchical Kickstarting（HKS），并在复杂环境下的游戏 NetHack 及其他基线测试中验证了其表现优于其他方法，并认为利用预定义技能为具有大的状态 - 动作空间和稀疏奖励的强化学习问题提供了一个有用的归纳偏差。

Jul, 2022

高效强化学习的行为先验

本文介绍了如何使用概率建模与信息结构约束相结合的方法来学习行为先验，并将其有效地整合到强化学习框架中，以实现多任务与转移学习。最后通过在一系列仿真连续控制域上的应用来展示该框架的有效性。

Oct, 2020

高效探索的层次化技能

本文介绍了一种新的分层技能学习框架，利用无监督学习获得不同复杂度的技能，并自动权衡技能的通用性和特定性，用于动态任务，并表明这种方法产生比现有方法更好的结果。

Oct, 2021

非监督强化学习的信息几何

本文研究发现基于相互信息最大化的无监督技能发现算法不一定对于所有潜在奖励函数都能学出最优技能，但它们提供了一个最优初始状态以最小化对抗选择的奖励函数的遗憾。

Oct, 2021

通过正则化逆强化学习实现奖励可转移性

逆强化学习旨在从专家示范中推断出奖励，但奖励与最优策略不唯一，本文提出主角度作为衡量转移规律相似性和差异性的更精细度量，建立了两个关键结果：1）当学习来自至少两个转移规律明显不同的专家时，对任何转移规律的可转移性提供了足够条件；2）当从单个专家学习时，对转移规律的局部变化的可转移性提供了足够条件，并提供了概率近似正确（PAC）算法和端到端分析，用于从多个专家的示范中学习可转移的奖励。

Jun, 2024