具有不完美专家演示的贝叶斯 Q-learning

Oct, 2022

具有不完美专家演示的贝叶斯 Q-learning

Bayesian Q-learning With Imperfect Expert Demonstrations

Fengdi Che, Xiru Zhu, Doina Precup, David Meger, Gregory Dudek

TL;DR本文提出一种使用少量专家演示来加速 Q-learning 的算法，通过减少对专家数据的依赖程度和逐步降低不相关数据的使用，实现了对数据的更高效利用，实验结果表明该方法在大多数情况下可以比 Hester 等人的演示深度 Q-learning 方法获得更好的结果。

Abstract

Guided exploration with expert demonstrations improves data efficiency for reinforcement learning, but current algorithms often overuse ex

reinforcement learning expert demonstrations q-learning data efficiency delayed rewards

发现论文，激发创造

基于软件导师的不完美演示强化学习

本文研究了强化学习的探索效率问题。提出了一种基于专家演示的强化学习方法，通过将专家指导视为对智能体政策探索的软约束，最终转化为一个约束优化问题，并采用局部线性搜索来高效解决。在广泛的基准测试中，我们的方法比其他方法获得了更好的结果。

Nov, 2019

演示中的深度 Q 学习

本文介绍了 Deep Q-learning from Demonstrations（DQfD）算法，并探究其应用于真实环境下学习任务的可行性以及其在模拟环境和真实环境中的表现；同时，DQfD 算法通过采用优先重放机制以及组合时差更新和监督学习来利用少量演示数据显著加速学习过程。实验表明，DQfD 相较于其他三种相关算法在学习任务中具有更好的表现，并可通过人类演示数据来实现一些领先于其他算法的新的最优成果。

Apr, 2017

在未观测到的异质性下进行具有专家示范的顺序决策

我们研究了在线顺序决策问题，给出了专家根据未观察到的上下文信息做出决策的辅助演示。我们将问题建模为一个具有未知任务分布和贝叶斯遗憾最小化目标的零样本元强化学习设置，其中未观察到的任务被编码为具有未知先验的参数。我们提出了 ExPerior 算法，这是一种非参数的经验贝叶斯方法，利用了最大熵原理，在学习者的决策问题上建立了一个信息丰富的先验。我们证明了我们的策略超越了现有的多臂赌博机和强化学习的行为克隆和在线算法，展示了我们的方法在不同的决策设置中利用专家演示的实用性。

Apr, 2024

从弱演示中学习对话策略

本研究提出一种基于 Deep Q-learning from Demonstrations 的 Reinforced Fine-tune Learning 方法，利用 labeled、reduced-labeled 和 unlabeled data 训练 expert demonstrators，以解决多领域对话系统中 state 和 action 空间较大的问题，并在实验中取得了较高的成功率。

Apr, 2020

在 Atari 中从人类偏好和演示中进行奖励学习

本研究使用深度神经网络进行强化学习，将人工反馈的目标作为奖励函数输入，并结合了专家演示与轨迹优先学习两种方法。实验在 9 个 Atari 游戏中超越了模仿学习的基线，并在其中 2 个游戏中获得了超人的表现，同时研究了奖励模型拟合度、奖励篡改问题和人类标签噪声的影响。

Nov, 2018

使用专家演示预训练深度演员 - 评论家强化学习算法

本文提出了一种基于专家示范的演员 - 评论家强化学习算法，同时确保性能不会受到专家示范不是全局最优的影响，并在两个典型算法中应用该方法进行试验，表明专家示范预训练不仅能够提高性能，而且更具增强训练的效率。

Jan, 2018

通过估计演示者的专业水平进行模仿学习

本研究通过对演示者专业技能的无监督学习，开发了一种可同时学习演示者政策和专业技能水平的联合模型，并通过过滤每种演示者的次优行为，训练出可以优于任何演示者的单一策略，并可用于估计任意状态下演示者的专业技能，在 Robomimic 等实际机器人控制任务以及 MiniGrid 和棋类等离散环境中取得了比其他方法更好的表现。

Feb, 2022

基于模型的方法提高强化学习效率：借助专家观察

该研究通过采用专家观察（不涉及具体专家行为信息）来改进深度强化学习模型的样本效率，并通过提出一种自动调整增强损失函数中各组成部分权重的算法，证明了该算法在多种连续控制任务中通过有效利用可用的专家观察优于其他基准模型。

Feb, 2024

强化学习中的模仿学习

针对确定性专家，本文使用固定奖励将模仿学习降为强化学习问题，并证实了可以恢复专家的奖励，并将模仿者与专家之间的总变化距离等同于对抗模仿学习，针对连续控制任务进行了实验确认降维的有效性。

Aug, 2021

对抗性模仿学习中的无标签不完美演示

本文提出了一种基于自对抗的无标签专家演示的算法，利用全面学习方法，动态地抽样专家演示，并与不断优化的策略进行比对，可以优化生成的轨迹，实现了动态的自我适应学习。

Feb, 2023