一种最优的在线强化学习源策略选择方法

Sep, 2017

一种最优的在线强化学习源策略选择方法

An Optimal Online Method of Selecting Source Policies for Reinforcement Learning

Siyuan Li, Chongjie Zhang

TL;DR本文提出了一种在线多臂赌博机方法并结合 Q-learning 算法实现源策略的选择，证明了其最优选择过程和收敛到最优策略的理论保证，同时通过与最先进的传递学习方法在机器人导航领域上的实验比较，证明了其高效性和鲁棒性。

Abstract

transfer learning significantly accelerates the reinforcement learning process by exploiting relevant knowledge from previous experiences. The problem of optimally selecting source policies during the learning pr

transfer learning reinforcement learning policy selection multi-armed bandit problem q-learning

发现论文，激发创造

基于多源转移学习的深度模型强化学习

本研究旨在提出多源模块化转移学习技术，以减少强化学习所需的环境交互次数并提高知识重用。我们支持这一技术的有效性，并进行了广泛而具有挑战性的视觉控制跨领域实验。

May, 2022

自适应策略转移的高效深度强化学习

本研究提出了一种名为 “Policy Transfer Framework” 的框架，该框架采用多策略转移方式对强化学习中的目标策略进行直接优化，可以很方便地与现有的深度强化学习方法相结合，实验结果表明，该框架明显加速了学习过程，并在离散和连续动作空间中超越了现有的策略转移方法，具有较高的学习效率和最终性能。

Feb, 2020

强化学习领域中的在线迁移学习

本文提出了一种在线传输框架来捕捉代理之间的交互，并显示强化学习中的当前传输学习是在线传输的一种特殊情况。此外，本文将现有的代理 - 代理方法重新定位为在线传输，并分析了其中一种教学方法的三种方法。最后，还有理论结果的经验验证。

Jul, 2015

IOB：集成优化迁移和行为迁移用于多策略重用

通过在 actor-critic 框架中利用 Q 函数来引导策略选择，我们提出了一种基于优化传递和行为传递的新型迁移 RL 方法，将学习的策略规范化为模仿引导策略并将它们组合成行为策略，从而显著增强了迁移效果，在基准任务中超越了最新的迁移 RL 基线，改进了连续学习场景中的最终性能和知识可迁移性，另外，我们证明了我们的优化传递技术可以保证提高目标策略的学习。

Aug, 2023

面向离线 - 在线强化学习的政策扩展方案

通过先预训练离线数据，再使用强化学习进行在线微调是一种有效的控制策略学习策略，本文提出了一种策略扩展方案以增加新的策略来参与探索，有效提高了学习效率和性能表现。

Feb, 2023

一种基于优势的强化学习策略迁移算法及其可迁移性度量

本文提出了一种基于收益的策略转移算法 APT-RL，用于在固定领域环境中的强化学习，通过使用 “优势” 作为正则项，避免了启发式选择算法设计，并提出了一种新的转移性能度量来评估算法的性能并统一现有的转移强化学习框架，实验证明在大多数任务上 APT-RL 的性能优于现有的转移强化学习算法，并且比从零开始学习更加高效。

Nov, 2023

MULTIPOLAR：用于不同环境动力学之间的转移强化学习的多源策略聚合

本研究提出了 MULTIPOLAR 算法，使用多个源策略集提高强化学习代理的学习效率，包括自适应聚合源策略提高目标任务性能和预测聚合动作残差以保证目标策略表达能力，实验结果在多种仿真环境下验证算法的有效性。

Sep, 2019

想象价值梯度：基于模型的策略优化和可转移的潜在动态模型

本文研究如何通过模型驱动的增强学习方法促进任务转移，提出了基于动作条件的预测模型学习算法，用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。

Oct, 2019

分层强化学习中鲁棒的知识传递

本文研究分层强化学习的并行传输学习框架，提出了新的在线学习算法以及转移来源选择机制来实现对高层任务的常数后悔性，在多低层任务的情况下也能获得更大的状态行为空间的利益。

Feb, 2023

上下文感知策略复用

本文提出了一种名为 CAPS 的上下文感知策略重用方法，它学习何时和哪个源策略最适合重用以及何时终止其重用，从而提高了转移效率并保证了收敛和最优性。实验结果表明，CAPS 在网格导航领域和 Pygame 学习环境中明显优于其他最先进的策略重用方法。

Jun, 2018