解耦动态与奖励的迁移学习

Apr, 2018

Decoupling Dynamics and Reward for Transfer Learning

Amy Zhang, Harsh Satija, Joelle Pineau

TL;DR本文提出了一种分离式学习策略，通过创造共享的表示空间来保证知识可以稳健地转移，分离学习任务表示，前向动力学，反向动力学和领域奖励函数，并表明这种分离可以提高任务内的性能并有效用于在线计划，在连续和离散 RL 领域中表现良好。

Abstract

Current reinforcement learning (RL) methods can successfully learn single tasks but often generalize poorly to modest perturbations in task domain or training procedure. In this work, we present a decoupled learning str

reinforcement learning decoupled learning strategy shared representation space online planning continuous and discrete rl domains

发现论文，激发创造

离线动态强化学习：通过领域分类器进行转移训练

我们提出了一种简单、实用和直观的强化学习领域自适应方法，通过修改奖励函数，使用辅助分类器来区分源域和目标域，对源域中不可能出现的状态进行惩罚，适用于连续状态和动作的域，可扩展至高维任务。

Jun, 2020

多任务和多机器人迁移学习的模块化神经网络策略学习

本研究主要关注于如何使用深度增强学习的方法，通过神经网络策略来训练机器人获取新的技能。同时，通过迁移学习，可以实现技能和机器人之间的信息共享，从而使用 mix-and-match 模块来解决新的机器人环境和任务组合的问题。

Sep, 2016

基于上下文感知的模型动态学习在强化学习中的泛化应用

该论文提出了一种用于强化学习中学习动态全局模型的方法，通过将学习全局动态模型的任务分解为学习本地动态的上下文潜向量和条件预测下一个状态来实现此目的，并通过鼓励上下文潜向量在预测正向和反向动态方面有用来编码动态特定信息。该方法在各种模拟机器人控制任务中实现了优异的泛化能力，超过了现有的强化学习方案。

May, 2020

策略学习在缺乏支持下的离散的 RL 中的应用

通过解决源模拟和目标环境之间的动力学差异问题，提出一种简单但有效的方法，通过偏向和扩展源支持以减轻支持缺陷，以适应大的动力学差异，从而在目标领域中制定出有效的策略。

Feb, 2024

安全探索的环境特征解耦学习

本文介绍了一种解耦环境特征与任务特定特征的方法，使得代理能够在同一环境下更好的进行任务迁移和新任务风险降低，研究结果表明，此方法能够更安全地利用先前知识。

Aug, 2017

使用 Q 网络表示的转移强化学习在不同操作空间中的应用

本研究旨在探究在不同动作空间领域之间进行知识传递的可能性和有效性，提出了一种基于源嵌入相似性的奖励塑形方法，可适用于具有离散和连续动作空间的领域。在 Acrobot-v1 和 Pendulum-v0 领域上，基于两个基线的比较表明我们的方法没有在连续动作空间中取得更好的结果，但在离散动作空间中确实表现出了改进。

Feb, 2022

强化学习任务状态对应关系的学习，用于知识迁移

该研究提出了一种基于生成对抗网络模型的一对一转移学习方法，旨在解决深度强化学习中新任务的知识重用和泛化问题。

Sep, 2022

跨领域强化学习的知识迁移：系统综述

通过对跨领域强化学习的了解和分类，以及对数据假设需求进行特征分析，本文全面系统地介绍了不同领域知识传递方法的研究，讨论了交叉领域知识传递的主要挑战以及未来研究方向。

Apr, 2024

捕获表征不匹配的方式进行跨领域策略自适应

本研究主要关注在强化学习中存在动力学不匹配的问题，提出了一种基于解耦表示学习的方法，通过在目标领域中进行表示学习并测量与源领域的过渡的表示差异，将表示差异作为奖励惩罚项，该方法在具有运动学和形态学不匹配的环境中表现出良好的性能。

May, 2024

分解环境的分阶段强化学习用于复杂任务

通过将复杂任务分解为多个子任务并在交通路口模拟中引入多智能体训练机制，本研究提出了两种方法来近似强化学习问题并改善代理人在复杂任务中的性能，从而减少潜在的安全问题。

Nov, 2023