基于偏好成本学习的任务转移

AAAIMay, 2018

Task Transfer by Preference-Based Cost Learning

Mingxuan Jing, Xiaojian Ma, Wenbing Huang, Fuchun Sun, Huaping Liu

TL;DR本文提出了一个新的任务转移框架，通过专家偏好作为指导，无需明确的成本函数，随着增强的 Adversarial MaxEnt IRL，学习目标代价函数和轨迹分布，并通过选择结果生成更多的轨迹，实验证明了该方法的效果。

Abstract

The goal of task transfer in reinforcement learning is migrating the action policy of an agent to the target task from the source task. Given their successes on robotic action planning, current methods mostly rel

task transfer reinforcement learning expert preference trajectory distribution adversarial maxent irl

发现论文，激发创造

通过最优输运进行离线强化学习的零样本偏好学习

提出一种新颖的零样本基于偏好的强化学习算法，利用源任务的标注偏好数据来推断目标任务的标注数据，然后利用 Gromov-Wasserstein 距离来对齐源任务和目标任务的轨迹分布，并使用 Robust Preference Transformer 模型来训练奖励函数和策略模型，其结果表明该方法具有在转移学习环境下学习偏好并能从含噪偏好标签学习奖励函数的能力。

Jun, 2023

自适应策略转移的高效深度强化学习

本研究提出了一种名为 “Policy Transfer Framework” 的框架，该框架采用多策略转移方式对强化学习中的目标策略进行直接优化，可以很方便地与现有的深度强化学习方法相结合，实验结果表明，该框架明显加速了学习过程，并在离散和连续动作空间中超越了现有的策略转移方法，具有较高的学习效率和最终性能。

Feb, 2020

在强化学习中模仿受成本约束的行为

通过拉格朗日方法、元梯度以及基于成本违规的交替梯度等多种方法，我们在考虑轨迹成本约束的情况下成功匹配了专家分布，并且在实证研究中证明了我们的元梯度方法具有最佳性能。

Mar, 2024

接触丰富操作中的强化学习知识迁移

本文介绍了一种基于多个技能先验的强化学习方法，通过学习每个任务所需技能的先验分布，并将任务的相似性与先前的任务进行比较，以指导在新任务上学习策略，从而更好地推广到训练中从未遇到的新任务。

Sep, 2022

一种基于优势的强化学习策略迁移算法及其可迁移性度量

本文提出了一种基于收益的策略转移算法 APT-RL，用于在固定领域环境中的强化学习，通过使用 “优势” 作为正则项，避免了启发式选择算法设计，并提出了一种新的转移性能度量来评估算法的性能并统一现有的转移强化学习框架，实验证明在大多数任务上 APT-RL 的性能优于现有的转移强化学习算法，并且比从零开始学习更加高效。

Nov, 2023

强化学习中表征转移的可证明收益

本研究探讨了强化学习中的表征传递问题，提出了一种基于预训练和生成访问的新方法，可以帮助在源任务中发现一个共享表征来快速收敛到一个接近最优策略的目标任务中。

May, 2022

分层强化学习中鲁棒的知识传递

本文研究分层强化学习的并行传输学习框架，提出了新的在线学习算法以及转移来源选择机制来实现对高层任务的常数后悔性，在多低层任务的情况下也能获得更大的状态行为空间的利益。

Feb, 2023

通过对策略分布进行建模的迁移学习

探究并适应新任务在传递学习设置中是强化学习中的一个核心挑战。针对该问题，我们利用在贝叶斯深度强化学习模式下模拟策略分布的想法提出了一种传输策略。我们通过在完全可见的 GridWorld 和部分可见的 MiniGrid 环境中展示有利的实验结果来支持我们的假设。

Jun, 2019

自省行为指导的可解释迁移学习

本篇文章提出了一种基于动作建议的深度强化学习任务之间的迁移学习替代方法，该方法可提高 Gridworld 和 Atari 环境下的收敛速率并提供知识迁移情况的洞见。

Jun, 2023

整合人类演示和偏好的学习奖励函数

该研究提出了 DemPref 框架，结合演示和偏好查询来学习奖励函数，其对标准偏好学习方法具有更高的效率和更好的性能。

Jun, 2019