基于变分逆强化学习的多任务可迁移奖励学习

Jun, 2022

基于变分逆强化学习的多任务可迁移奖励学习

Learning Multi-Task Transferable Rewards via Variational Inverse Reinforcement Learning

Se-Wook Yoo, Seung-Woo Seo

TL;DR利用生成对抗网络框架下的多任务环境下的赋能制约技术，从无标记的专家示例中同时学习可转移的多任务奖励函数和策略，并证明其比现有的模仿学习方法具有更好的性能和数据效率。

Abstract

Many robotic tasks are composed of a lot of temporally correlated sub-tasks in a highly complex environment. It is important to discover situational intentions and proper actions by deliberating on temporal abstractions

robotic tasks temporal abstractions multitask learning generative adversarial network imitation learning

发现论文，激发创造

基于变分反强化学习的对抗性模仿

通过生成敌对网络框架，提出一种以权力为基础的正则化最大熵逆向强化学习来学习接近最优的奖励和策略，同时学习变分信息最大化下的权力，并在各种高维复杂控制任务和具有挑战性的转移学习问题上进行了评估，证明了该方法不仅匹配专家行为而且比最先进的逆向强化学习算法表现显著优异。

Sep, 2018

利用上下文结构生成有用的辅助任务

通过生成和学习有用的辅助任务，最大化经验重用，从而学习解决给定任务的方法，通过计数推理和离线策略方法同时学习这些辅助任务，从而实现多任务强化学习的新框架。

Mar, 2023

贝叶斯多任务逆向强化学习

本文将逆向强化学习问题推广到多个任务，通过引入一定数量的结构化先验，我们将问题形式化为统计偏好提取。我们展示了我们的框架不仅允许我们从多个专家中有效地学习，而且还可以有效地区分每个专家的目标。

Jun, 2011

以变分授权为代表学习目标导向的强化学习

通过代表愿景达成的功能感知状态表示进行的变分互信息最大化，能够为达到愿景状态的广泛应用的多任务策略的自监督强化学习提供框架和方法，同时还提出了广义 GCRL 和 MI-Based RL 的统一方法，即 VGCRL，并结合方法的容量和光滑性分析了能力扩展，以及其与不同线性变换结构的潜在目标发现算法的比较评价指标，即 LGR。

Jun, 2021

变分课程增强学习用于无监督技能发现

基于互信息的强化学习作为一种无需任务导向奖励函数的复杂技能自主检索方法已被提出，但由于训练技能的顺序会在很大程度上影响样本效率，对于学习复杂技能仍具有挑战性。本文提出了一种名为变分课程强化学习（VCRL）的方法，将变分增强视为内在奖励函数的目标条件强化学习中的课程学习，并基于信息理论提出了一种无监督技能发现的新方法，称为值不确定性变分课程（VUVC）。我们证明，在一定的正则条件下，与均匀课程相比，VUVC 能够加快访问状态熵的增加。我们通过复杂导航和机器人操作任务验证了我们方法的有效性，同时以零次设定下的真实世界机器人导航任务为例，证明了通过我们方法发现的技能能够成功完成任务，并且将这些技能与全局规划器相结合可以进一步提高性能。

Oct, 2023

使用时间变化的自我监督学习密集奖励

本文提出了一种从多模态观察中抽取稠密奖励的更高效和更强韧的方法，在联合装配和开门两个实验设置中测试表明，这种方法在学习稠密奖励方面是有效和高效的，并且学习到的奖励导致更快的收敛。

May, 2022

基于多源转移学习的深度模型强化学习

本研究旨在提出多源模块化转移学习技术，以减少强化学习所需的环境交互次数并提高知识重用。我们支持这一技术的有效性，并进行了广泛而具有挑战性的视觉控制跨领域实验。

May, 2022

想象价值梯度：基于模型的策略优化和可转移的潜在动态模型

本文研究如何通过模型驱动的增强学习方法促进任务转移，提出了基于动作条件的预测模型学习算法，用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。

Oct, 2019

通过变分推断实现基于结果的强化学习

通过提出一种新的变分推断形式，从环境交互中直接学习良好的奖励函数，并使用新的概率贝尔曼反演运算符，发展了一种离线策略算法来解决目标导向任务，该方法消除了手工制作奖励函数的需要，并对各种机械操纵和运动任务产生了有效的目标导向行为。

Apr, 2021

使用无监督辅助任务的强化学习

该论文介绍了一种深度强化学习代理，它不仅能够直接最大化累积奖励，在共同的表现下还能同时最大化许多其他伪奖励函数，该代理基于不受外部奖励影响的无监督学习得到共同的表现，并对外部奖励进行关注，可以快速适应实际任务，在 Atari 和三维 Labyrinth 任务中都取得了显著的优异表现。

Nov, 2016