跨领域强化学习的知识迁移：系统综述

Apr, 2024

跨领域强化学习的知识迁移：系统综述

Knowledge Transfer for Cross-Domain Reinforcement Learning: A Systematic Review

Sergio A. Serrano, Jose Martinez-Carranza, L. Enrique Sucar

TL;DR通过对跨领域强化学习的了解和分类，以及对数据假设需求进行特征分析，本文全面系统地介绍了不同领域知识传递方法的研究，讨论了交叉领域知识传递的主要挑战以及未来研究方向。

Abstract

reinforcement learning (RL) provides a framework in which agents can be trained, via trial and error, to solve complex decision-making problems. Learning with little supervision causes RL methods to require large

发现论文，激发创造

强化学习领域的课程学习: 框架与综述

本文提出了强化学习中的课程学习框架，并使用此框架对现有的课程学习方法进行分类和研究，以找出未解决的问题并提出未来研究的方向。

Mar, 2020

深度强化学习中的迁移学习：综述

调查了深度强化学习中迁移学习方法的最新进展，提供了对目标，方法，兼容强化学习骨架以及实际应用等方面分析的框架，并从强化学习的角度探讨了迁移学习与其他相关话题之间的联系和潜在挑战。

Sep, 2020

在连续任务中利用导师进行领域知识转移

将顾问整合到深度确定性策略梯度（DDPG）算法，以允许将领域知识以预先学习的政策或预定义的关系的形式整合到学习过程中，以加速学习和改善政策。

Feb, 2021

可解释性强化学习综述：概念、算法、挑战

本篇综述论文将积极介绍深度强化学习与可解释机器学习的交叉，比较了先前的方法，提出了一种补充，阐明了深度学习对智能机器人控制任务的适用性，强调机器学习与人类知识相互融合提升学习效率和性能的意义，并评估了未来XRL研究面临的挑战和机遇。

Nov, 2022

通过撤销映射形式主义进行迁移强化学习

提出了一个名为TvD的框架，通过分布匹配实现智能体在交互域之间的知识转移，其基于优化目标推导出了一种新的策略更新机制，该机制可以有效地解决任务差异性的影响。

Nov, 2022

强化学习中的知识迁移无效行为学习

该研究提出了一种系统性的方法来将先验知识引入强化学习算法中，试图通过学习无关的行为来降低样本复杂性，并通过实验证明了其可以提高算法的样本效率和转移学习能力。

Nov, 2022

一种基于优势的强化学习策略迁移算法及其可迁移性度量

本文提出了一种基于收益的策略转移算法 APT-RL，用于在固定领域环境中的强化学习，通过使用“优势”作为正则项，避免了启发式选择算法设计，并提出了一种新的转移性能度量来评估算法的性能并统一现有的转移强化学习框架，实验证明在大多数任务上 APT-RL 的性能优于现有的转移强化学习算法，并且比从零开始学习更加高效。

Nov, 2023

强化学习中的迁移基础：知识模式分类

当代人工智能系统的不断发展需要相应的资源、大量数据集和计算基础设施，特别是在限制环境下的基础研究和应用中，知识的表示通过各种模态呈现，包括动力学和奖励模型、价值函数、策略和原始数据。该论文系统地讨论了这些模态，并基于其固有属性和与不同目标和机制之间的相互关系来进行讨论，以实现知识的迁移和推广，并分析了特定形式的转移出现或稀缺的原因，并强调从设计到学习的转移的重要性。

Dec, 2023

基于相似度的知识转移用于跨领域强化学习

通过开发半监督对齐损失来匹配不同空间的一组编码器-解码器，本研究研究了如何衡量跨领域强化学习任务之间的相似性，以选择能够提高学习代理性能的知识源。实验结果表明，在各种Mujoco控制任务中，我们的方法能够有效地选择和传递知识，而无需与专家策略相匹配、配对或收集数据的监督。

Dec, 2023

跨领域政策迁移的综合调查和实例研究

通过对现有跨域策略转移方法进行系统审查，我们对每个问题设置的总体见解和设计考虑进行了细致的分类，并对跨域策略转移问题中使用的关键方法进行了高层次讨论。最后，我们总结了当前范式能力之外的开放挑战，并讨论了该领域可能的未来发展方向。

Feb, 2024