强化学习领域中的在线迁移学习

Jul, 2015

Online Transfer Learning in Reinforcement Learning Domains

Yusen Zhan, Matthew E. Taylor

TL;DR本文提出了一种在线传输框架来捕捉代理之间的交互，并显示强化学习中的当前传输学习是在线传输的一种特殊情况。此外，本文将现有的代理 - 代理方法重新定位为在线传输，并分析了其中一种教学方法的三种方法。最后，还有理论结果的经验验证。

Abstract

This paper proposes an online transfer framework to capture the interaction among agents and shows that current transfer learning in reinforcemen

online transfer transfer learning reinforcement learning agents-teaching-agents methods q-learning

发现论文，激发创造

一种最优的在线强化学习源策略选择方法

本文提出了一种在线多臂赌博机方法并结合 Q-learning 算法实现源策略的选择，证明了其最优选择过程和收敛到最优策略的理论保证，同时通过与最先进的传递学习方法在机器人导航领域上的实验比较，证明了其高效性和鲁棒性。

Sep, 2017

在线稳定强化学习框架

本篇论文介绍了一种将在线增强学习与经典控制的元素（基于 Lyapunov 稳定性理论）进行结合的方法，可在不进行长期预训练的情况下为移动机器人提供稳定的控制能力，并通过实验研究证明了该方法的有效性。

Jul, 2022

多智能体强化学习中的无专家在线迁移学习

本文介绍了一种名为 EF-OnTL 的无专家自动选择知识传递源和知识传递方式的算法，以及一种名为 sars-RND 的方法来提高不确定性估计，通过在 Cart-Pole，mt-pp 和 HFO 数据集上进行的实验，证明了该算法相对于无传递情景的改善。

Mar, 2023

使用 Q 网络表示的转移强化学习在不同操作空间中的应用

本研究旨在探究在不同动作空间领域之间进行知识传递的可能性和有效性，提出了一种基于源嵌入相似性的奖励塑形方法，可适用于具有离散和连续动作空间的领域。在 Acrobot-v1 和 Pendulum-v0 领域上，基于两个基线的比较表明我们的方法没有在连续动作空间中取得更好的结果，但在离散动作空间中确实表现出了改进。

Feb, 2022

分层强化学习中鲁棒的知识传递

本文研究分层强化学习的并行传输学习框架，提出了新的在线学习算法以及转移来源选择机制来实现对高层任务的常数后悔性，在多低层任务的情况下也能获得更大的状态行为空间的利益。

Feb, 2023

深度强化学习中的迁移学习：综述

调查了深度强化学习中迁移学习方法的最新进展，提供了对目标，方法，兼容强化学习骨架以及实际应用等方面分析的框架，并从强化学习的角度探讨了迁移学习与其他相关话题之间的联系和潜在挑战。

Sep, 2020

零样本迁移在模仿学习中的应用

我们提出了一种学习模仿专家行为并能在以前未见过的领域进行迁移学习的算法。通过使用 AnnealedVAE 来学习一个解缠缚状态表示，并通过学习一个单一的 Q 函数来模仿专家，我们结合了深度强化学习中的最新进展，从而克服了奖励函数设计的困难、在不同领域部署已学习策略的困难，以及直接在现实世界中学习由于安全问题而昂贵或不可行的问题。在 3 个环境中展示了我们方法的有效性，这些环境的难度和迁移知识类型各不相同。

Oct, 2023

跨领域强化学习的知识迁移：系统综述

通过对跨领域强化学习的了解和分类，以及对数据假设需求进行特征分析，本文全面系统地介绍了不同领域知识传递方法的研究，讨论了交叉领域知识传递的主要挑战以及未来研究方向。

Apr, 2024

元强化学习在动态现实环境中的自适应学习

本研究旨在提出一种模型基础的强化学习元学习方法，以在明显减少样本数量的情况下实现机器人在线适应新任务，并证明该方法在模拟和实际机器人中的有效性。

Mar, 2018

无关奖励微调：混合强化学习具有可证明统计优势

本文研究了在混合设置中对表格强化学习算法的探讨，通过利用已有的离线数据集以及未知环境中的在线交互，提出了一种高效的三阶段算法，不需要在数据收集期间提供任何奖励信息并且减少了样本的复杂度。

May, 2023