使用专家演示预训练深度演员 - 评论家强化学习算法

Jan, 2018

使用专家演示预训练深度演员 - 评论家强化学习算法

Pretraining Deep Actor-Critic Reinforcement Learning Algorithms With Expert Demonstrations

Xiaoqin Zhang, Huimin Ma

TL;DR本文提出了一种基于专家示范的演员 - 评论家强化学习算法，同时确保性能不会受到专家示范不是全局最优的影响，并在两个典型算法中应用该方法进行试验，表明专家示范预训练不仅能够提高性能，而且更具增强训练的效率。

Abstract

Pretraining with expert demonstrations have been found useful in speeding up the training process of deep reinforcement learning algorithms since less online simulation data is required. Some people use supervised learning to speed up the process of feature learning, others pretrain th

deep reinforcement learning expert demonstration pretraining actor-critic reinforcement learning policy gradients simulation efficiency

发现论文，激发创造

使用人类演示进行神经网络预训练的深度强化学习

通过使用小规模的人类演示来完成深度强化学习网络的预训练，可以更好地发现特征，并且可以使训练时间显著缩短，并可在 Atari 2600 游戏中实现。

Sep, 2017

一种用监督数据提高采样效率的演员 - 评论家强化学习方法在对话管理中的应用

介绍了两种神经网络算法 ——trust region actor-critic with experience replay (TRACER) 和 episodic natural actor-critic with experience replay (eNACER)，以加速深度强化学习，在线学习过程中的效果，并利用演示数据来预先训练深度强化学习模型，以缓解冷启动问题。

Jul, 2017

来自不完美演示的强化学习

提出了一种名为规范化演员 - 评论家（NAC）的统一增强学习算法，它将从展示中学习的初始化策略网络与环境中推荐的策略网络结合起来，是一种优于现有基线的鲁棒性学习算法，可用于在几个真实驾驶游戏中的表现。

Feb, 2018

高效离线强化学习：批评者至关重要

最近的研究表明，在离线强化学习中使用有监督方法（不使用时序差分学习）既有益处又有局限性。本文提出了一种取长补短的方法，首先通过有监督学习来学习行为策略和评论家，然后再通过离线强化学习进行改进。具体而言，我们通过使用常被忽视的提供的离线轨迹中的下游信息，通过有监督的蒙特卡洛值误差预训练，提高了效率。我们发现在标准基准测试中，我们能够将考虑的离线算法的训练时间减少一半以上，并且出人意料地获得更大的稳定性。我们进一步强调具有一致的策略和值函数的重要性，提出了新颖的混合算法 TD3+BC+CQL 和 EDAC+BC，对行为策略和评论家进行正则化，更可靠地改进行为策略。代码可在此 URL 找到。

Jun, 2024

具有不完美专家演示的贝叶斯 Q-learning

本文提出一种使用少量专家演示来加速 Q-learning 的算法，通过减少对专家数据的依赖程度和逐步降低不相关数据的使用，实现了对数据的更高效利用，实验结果表明该方法在大多数情况下可以比 Hester 等人的演示深度 Q-learning 方法获得更好的结果。

Oct, 2022

MoDem: 利用演示加速视觉基于模型的强化学习

利用演示可以显著提高模型学习效率，在这项工作中，我们确定了利用演示进行模型学习的关键因素，即策略预训练，有针对性的探索和演示数据的过采样，这三个阶段构成了我们的基于模型的 RL 框架。

Dec, 2022

差分隐私评论家演员模型

本文提出了一种隐私保护的知识转移技术，使用差分隐私策略评估算法来初始化一个演员 - 评论家模型并提高下游任务中的学习效果和样本效率，同时保持敏感或私有信息不泄露，这在资源受限的控制问题中具有实际意义。

Oct, 2019

通过估计演示者的专业水平进行模仿学习

本研究通过对演示者专业技能的无监督学习，开发了一种可同时学习演示者政策和专业技能水平的联合模型，并通过过滤每种演示者的次优行为，训练出可以优于任何演示者的单一策略，并可用于估计任意状态下演示者的专业技能，在 Robomimic 等实际机器人控制任务以及 MiniGrid 和棋类等离散环境中取得了比其他方法更好的表现。

Feb, 2022

使用示范加速强化学习和规划：一项调查

本综述介绍了在复杂环境下采用启发式专家经验演示来加速强化学习决策的优点，讨论了演示在决策学习中各种应用方法，并提供了一个实用的流程示例用于生成和利用演示。

Mar, 2023

AWAC: 利用非在线数据集加速在线强化学习

本文介绍一种可在实际机器人控制中应用的，将过往数据和在线学习相结合的策略，使用动态规划和策略更新相结合的方法可以有效提高学习效率并使学习时间缩短至实际可接受的范围。

Jun, 2020