VPE: 变分策略嵌入用于迁移强化学习

Sep, 2018

VPE: 变分策略嵌入用于迁移强化学习

VPE: Variational Policy Embedding for Transfer Reinforcement Learning

Isac Arnekvist, Danica Kragic, Johannes A. Stork

TL;DR本文研究了如何在不同领域中转移知识和适应环境，提出了使用基于 Q 函数的方法来寻找一个可适应不同潜在变量值的主策略，使用低维潜在变量生成映射和近似后验概率来识别新任务的策略。并将该方法应用于模拟的摆起任务和推动任务的转移上。

Abstract

reinforcement learning methods are capable of solving complex problems, but resulting policies might perform poorly in environments that are even slightly different. In robotics especially, training and deployment conditions often vary and data collection is expensive, making retrainin

reinforcement learning knowledge transfer markov decision processes policy adaptation simulation-to-real transfer

发现论文，激发创造

想象价值梯度：基于模型的策略优化和可转移的潜在动态模型

本文研究如何通过模型驱动的增强学习方法促进任务转移，提出了基于动作条件的预测模型学习算法，用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。

Oct, 2019

POMDP 的深层变分强化学习

本文提出了一种深度变分强化学习方法，该方法引入了归纳偏置，允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明，我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。

Jun, 2018

强化学习中的单集策略转移

为了实现在只进行一次尝试的测试时间内进行最优化，特别是在没有对丰富奖励的访问权下，我们提出了一种通用算法，该算法通过优化探针和推理模型来快速估计测试动态的潜在变量，然后立即将其用作通用控制策略的输入。这种模块化方法可以集成最先进的变分推理算法或强化学习算法，并且不需要在测试时间访问奖励，可以在现有的自适应方法无法适应的设置中执行，是一种优秀的迁移方式。

Oct, 2019

可变循环模型求解部分可观测控制任务

本文提出了一种在部分可观察环境下应用深度强化学习解决机器人控制任务的算法，该算法包含了两个部分，即可变循环模型和强化学习控制器；实验证明，该算法比其他方法在数据效率和策略学习上表现更好。

Dec, 2019

零样本迁移在模仿学习中的应用

我们提出了一种学习模仿专家行为并能在以前未见过的领域进行迁移学习的算法。通过使用 AnnealedVAE 来学习一个解缠缚状态表示，并通过学习一个单一的 Q 函数来模仿专家，我们结合了深度强化学习中的最新进展，从而克服了奖励函数设计的困难、在不同领域部署已学习策略的困难，以及直接在现实世界中学习由于安全问题而昂贵或不可行的问题。在 3 个环境中展示了我们方法的有效性，这些环境的难度和迁移知识类型各不相同。

Oct, 2023

基于变分逆强化学习的多任务可迁移奖励学习

利用生成对抗网络框架下的多任务环境下的赋能制约技术，从无标记的专家示例中同时学习可转移的多任务奖励函数和策略，并证明其比现有的模仿学习方法具有更好的性能和数据效率。

Jun, 2022

政策评估网络

本文提出了一种基于价值函数、梯度上升和指纹技术的增强学习方法，通过估计给定一组状态下多种策略的价值，实现了在策略空间直接进行梯度上升从而产生优秀的策略。实验结果表明，该方法的理论和实际效果均优于传统方法。

Feb, 2020

基于变分反强化学习的对抗性模仿

通过生成敌对网络框架，提出一种以权力为基础的正则化最大熵逆向强化学习来学习接近最优的奖励和策略，同时学习变分信息最大化下的权力，并在各种高维复杂控制任务和具有挑战性的转移学习问题上进行了评估，证明了该方法不仅匹配专家行为而且比最先进的逆向强化学习算法表现显著优异。

Sep, 2018

强化学习中基于对比行为相似性的嵌入用于泛化

该研究旨在提出一种基于顺序结构的强化学习方法来提高泛化能力，引入一种理论动机的策略相似度测量标准以及对比度表示学习方法，能够测量和嵌入任何状态相似度测量标准，从而达到改善类似于包含虚假相关性的 LQR、从像素到跳跃的任务以及 Distracting DM 控制套件等不同基准下的泛化效果。

Jan, 2021

多任务和多机器人迁移学习的模块化神经网络策略学习

本研究主要关注于如何使用深度增强学习的方法，通过神经网络策略来训练机器人获取新的技能。同时，通过迁移学习，可以实现技能和机器人之间的信息共享，从而使用 mix-and-match 模块来解决新的机器人环境和任务组合的问题。

Sep, 2016