IOB：集成优化迁移和行为迁移用于多策略重用

Aug, 2023

IOB：集成优化迁移和行为迁移用于多策略重用

IOB: Integrating Optimization Transfer and Behavior Transfer for Multi-Policy Reuse

Siyuan Li, Hao Li, Jin Zhang, Zhen Wang, Peng Liu...

TL;DR通过在 actor-critic 框架中利用 Q 函数来引导策略选择，我们提出了一种基于优化传递和行为传递的新型迁移 RL 方法，将学习的策略规范化为模仿引导策略并将它们组合成行为策略，从而显著增强了迁移效果，在基准任务中超越了最新的迁移 RL 基线，改进了连续学习场景中的最终性能和知识可迁移性，另外，我们证明了我们的优化传递技术可以保证提高目标策略的学习。

Abstract

Humans have the ability to reuse previously learned policies to solve new tasks quickly, and reinforcement learning (RL) agents can do the same by transferring knowledge from source policies to a related target task. Transfer RL methods can reshape the →

reinforcement learning transfer rl policy optimization behavior transfer continual learning

发现论文，激发创造

一种最优的在线强化学习源策略选择方法

本文提出了一种在线多臂赌博机方法并结合 Q-learning 算法实现源策略的选择，证明了其最优选择过程和收敛到最优策略的理论保证，同时通过与最先进的传递学习方法在机器人导航领域上的实验比较，证明了其高效性和鲁棒性。

Sep, 2017

想象价值梯度：基于模型的策略优化和可转移的潜在动态模型

本文研究如何通过模型驱动的增强学习方法促进任务转移，提出了基于动作条件的预测模型学习算法，用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。

Oct, 2019

自适应策略转移的高效深度强化学习

本研究提出了一种名为 “Policy Transfer Framework” 的框架，该框架采用多策略转移方式对强化学习中的目标策略进行直接优化，可以很方便地与现有的深度强化学习方法相结合，实验结果表明，该框架明显加速了学习过程，并在离散和连续动作空间中超越了现有的策略转移方法，具有较高的学习效率和最终性能。

Feb, 2020

一种基于优势的强化学习策略迁移算法及其可迁移性度量

本文提出了一种基于收益的策略转移算法 APT-RL，用于在固定领域环境中的强化学习，通过使用 “优势” 作为正则项，避免了启发式选择算法设计，并提出了一种新的转移性能度量来评估算法的性能并统一现有的转移强化学习框架，实验证明在大多数任务上 APT-RL 的性能优于现有的转移强化学习算法，并且比从零开始学习更加高效。

Nov, 2023

基于多源转移学习的深度模型强化学习

本研究旨在提出多源模块化转移学习技术，以减少强化学习所需的环境交互次数并提高知识重用。我们支持这一技术的有效性，并进行了广泛而具有挑战性的视觉控制跨领域实验。

May, 2022

基于偏好成本学习的任务转移

本文提出了一个新的任务转移框架，通过专家偏好作为指导，无需明确的成本函数，随着增强的 Adversarial MaxEnt IRL，学习目标代价函数和轨迹分布，并通过选择结果生成更多的轨迹，实验证明了该方法的效果。

May, 2018

连贯的软件仿真学习

本文提出了一种混合的模仿学习方法，将行为克隆和逆向加权分别作为策略和奖励模型，结合软强化学习框架下的无限制行为克隆技术和正则化方法，以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活，具有稳定的学习和最小化的超参数调整。

May, 2023

多样性应对不确定性：学习多样化行为以实现高效适应和迁移

基于转移学习的强化学习智能体在发现给定任务的所有有用解决方案方面至关重要，以应对任务或转移动力学的变化。我们提出了一种简单的方法来发现给定任务的所有可能解决方案，以获得在转移设置中表现良好并能够快速适应任务或转移动力学变化的智能体。我们的方法迭代地学习一组策略，而每个后续策略都受到所有先前策略下的不太可能解决方案的约束。与以往的方法不同，我们的方法不需要学习额外的新颖性检测模型，并通过直接将约束融入行动选择和优化步骤中，避免了任务和新颖性奖励信号的平衡。

Oct, 2023

通过对策略分布进行建模的迁移学习

探究并适应新任务在传递学习设置中是强化学习中的一个核心挑战。针对该问题，我们利用在贝叶斯深度强化学习模式下模拟策略分布的想法提出了一种传输策略。我们通过在完全可见的 GridWorld 和部分可见的 MiniGrid 环境中展示有利的实验结果来支持我们的假设。

Jun, 2019

通过正则化逆强化学习实现奖励可转移性

逆强化学习旨在从专家示范中推断出奖励，但奖励与最优策略不唯一，本文提出主角度作为衡量转移规律相似性和差异性的更精细度量，建立了两个关键结果：1）当学习来自至少两个转移规律明显不同的专家时，对任何转移规律的可转移性提供了足够条件；2）当从单个专家学习时，对转移规律的局部变化的可转移性提供了足够条件，并提供了概率近似正确（PAC）算法和端到端分析，用于从多个专家的示范中学习可转移的奖励。

Jun, 2024

IOB： 集成优化迁移和行为迁移用于多策略重用

IOB：集成优化迁移和行为迁移用于多策略重用