通过对策略分布进行建模的迁移学习

ICMLJun, 2019

通过对策略分布进行建模的迁移学习

Transfer Learning by Modeling a Distribution over Policies

Disha Shrivastava, Eeshan Gunesh Dhekane, Riashat Islam

TL;DR探究并适应新任务在传递学习设置中是强化学习中的一个核心挑战。针对该问题，我们利用在贝叶斯深度强化学习模式下模拟策略分布的想法提出了一种传输策略。我们通过在完全可见的 GridWorld 和部分可见的 MiniGrid 环境中展示有利的实验结果来支持我们的假设。

Abstract

exploration and adaptation to new tasks in a transfer learning setup is a central challenge in reinforcement learning. In this work, we bu

transfer learning reinforcement learning bayesian deep reinforcement learning diversity exploration

发现论文，激发创造

想象价值梯度：基于模型的策略优化和可转移的潜在动态模型

本文研究如何通过模型驱动的增强学习方法促进任务转移，提出了基于动作条件的预测模型学习算法，用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。

Oct, 2019

自适应策略转移的高效深度强化学习

本研究提出了一种名为 “Policy Transfer Framework” 的框架，该框架采用多策略转移方式对强化学习中的目标策略进行直接优化，可以很方便地与现有的深度强化学习方法相结合，实验结果表明，该框架明显加速了学习过程，并在离散和连续动作空间中超越了现有的策略转移方法，具有较高的学习效率和最终性能。

Feb, 2020

自省行为指导的可解释迁移学习

本篇文章提出了一种基于动作建议的深度强化学习任务之间的迁移学习替代方法，该方法可提高 Gridworld 和 Atari 环境下的收敛速率并提供知识迁移情况的洞见。

Jun, 2023

通过撤销映射形式主义进行迁移强化学习

提出了一个名为 TvD 的框架，通过分布匹配实现智能体在交互域之间的知识转移，其基于优化目标推导出了一种新的策略更新机制，该机制可以有效地解决任务差异性的影响。

Nov, 2022

多技能动作控制的渐进式蒸馏强化学习

本文研究在连续控制问题中如何将多个专项技能的策略组合在一起，为了解决这个问题作者扩展了策略蒸馏方法并通过模拟双足步态跨越不同类地形的领域中评估了该技术，同时还引入了一种输入注入方法来利用新的输入特征，最后，作者使用迁移学习来协助高效地获得新的技能。作者将自己的逐步学习方法与三种替代基线进行了比较。

Feb, 2018

多样性应对不确定性：学习多样化行为以实现高效适应和迁移

基于转移学习的强化学习智能体在发现给定任务的所有有用解决方案方面至关重要，以应对任务或转移动力学的变化。我们提出了一种简单的方法来发现给定任务的所有可能解决方案，以获得在转移设置中表现良好并能够快速适应任务或转移动力学变化的智能体。我们的方法迭代地学习一组策略，而每个后续策略都受到所有先前策略下的不太可能解决方案的约束。与以往的方法不同，我们的方法不需要学习额外的新颖性检测模型，并通过直接将约束融入行动选择和优化步骤中，避免了任务和新颖性奖励信号的平衡。

Oct, 2023

强化学习中勘探对泛化的重要性

基于探索的深度强化学习方法对新环境具有良好的泛化能力，通过使用一种基于 Q 值分布集合的探索方法，该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。

Jun, 2023

策略优化的政策转移

本研究提出了一种基于域随机化的控制策略迁移方法，通过同时学习多种不同行为的控制策略来应对目标环境与训练环境之间的差异，而无需对动态参数进行识别，实验表明该方法可以成功地解决模型误差较大的情况。

Oct, 2018

离线强化学习中的超出分布泛化扩散策略

利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比，离线强化学习可以使用非专家数据和多模态行为策略。然而，离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战，因为训练过程中缺乏在线交互。既往研究在离线强化学习中使用条件扩散模型来获取表示多模态行为的表达性政策。然而，它们没有针对缓解分布偏移状态泛化问题进行优化。我们提出了一种新方法，将状态重构特征学习纳入最近的一类扩散策略中，以解决分布外泛化问题。状态重构损失促进对状态的更加描述性表示学习，从而减轻分布外状态引起的分布偏移。我们设计了一个二维多模态上下文强化学习环境来展示和评估我们提出的模型。我们在这个新的环境以及几个 D4RL 基准任务上评估了我们模型的性能，实现了最先进的结果。

Jul, 2023

分布式强化学习探索

该研究提出了一种基于分布强化学习和结合贝叶斯参数更新与深度强化学习的框架，将多种先前的探索方法进行了概念统一，并推导出一个实用算法，在具有挑战性的控制任务上实现高效的探索。

May, 2018