使用人类演示进行神经网络预训练的深度强化学习

Sep, 2017

使用人类演示进行神经网络预训练的深度强化学习

Pre-training Neural Networks with Human Demonstrations for Deep Reinforcement Learning

Gabriel V. de la Cruz Jr, Yunshu Du, Matthew E. Taylor

TL;DR通过使用小规模的人类演示来完成深度强化学习网络的预训练，可以更好地发现特征，并且可以使训练时间显著缩短，并可在 Atari 2600 游戏中实现。

Abstract

deep reinforcement learning (deep RL) has achieved superior performance in complex sequential tasks by using a deep neural network as its function approximator and by learning directly from raw images. A drawback of using raw images is that deep RL must learn the state feature represen

deep reinforcement learning pre-training supervised learning human demonstrations atari 2600 games

发现论文，激发创造

使用专家演示预训练深度演员 - 评论家强化学习算法

本文提出了一种基于专家示范的演员 - 评论家强化学习算法，同时确保性能不会受到专家示范不是全局最优的影响，并在两个典型算法中应用该方法进行试验，表明专家示范预训练不仅能够提高性能，而且更具增强训练的效率。

Jan, 2018

深度强化学习中的预训练调查

该论文系统地评估了目前深度强化学习领域中采用的预训练方法，提出了分类体系、讨论了各个方面，并关注了未来可能遇到的挑战和需要探索的方向。

Nov, 2022

演示中的深度 Q 学习

本文介绍了 Deep Q-learning from Demonstrations（DQfD）算法，并探究其应用于真实环境下学习任务的可行性以及其在模拟环境和真实环境中的表现；同时，DQfD 算法通过采用优先重放机制以及组合时差更新和监督学习来利用少量演示数据显著加速学习过程。实验表明，DQfD 相较于其他三种相关算法在学习任务中具有更好的表现，并可通过人类演示数据来实现一些领先于其他算法的新的最优成果。

Apr, 2017

在 Atari 中从人类偏好和演示中进行奖励学习

本研究使用深度神经网络进行强化学习，将人工反馈的目标作为奖励函数输入，并结合了专家演示与轨迹优先学习两种方法。实验在 9 个 Atari 游戏中超越了模仿学习的基线，并在其中 2 个游戏中获得了超人的表现，同时研究了奖励模型拟合度、奖励篡改问题和人类标签噪声的影响。

Nov, 2018

为数据高效的强化学习预训练表示

利用未标记数据预先训练编码器，然后在少量任务特定数据上微调，通过使用潜在动态建模和无监督的目标条件强化学习来促进学习代表捕捉底层 MDP 的多个方面，该方法显示出极高的数据效率并且提供与先前工作以及需要订单更多数据的其他预训练方法相比的最先进的性能

Jun, 2021

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020

通过对抗性模仿从动作捕捉学习人类行为

本文介绍应用生成对抗性模仿学习方法，通过有限的高维仿人体运动演示数据，训练神经网络策略以产生类人的运动模式，并利用该方法构建子技能策略解决高维身体姿态控制任务。

Jul, 2017

深度强化学习中的大型网络训练

本文讨论了深度强化学习中训练大型神经网络的困难之处，提出了使用 DenseNet 连接构建更大的神经网络、将表示学习与强化学习训练分离以及采用分布式训练方法缓解过拟合问题等三种技术来提高性能的方法，在几个具有挑战性的运动任务上的结果表明本文提出的方法的有效性超过了其他基线算法。

Feb, 2021

半监督强化学习技能泛化

本文研究了如何在有限的标注数据下，通过半监督强化学习及反强化学习等方法，使机器人等强化学习智能体在探索未知领域时能够获得更好的泛化效果，并评估了该方法在基于图像的控制任务上的表现。

Dec, 2016

使用浅层强化学习技术控制 Atari 游戏的现状

本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键，并提供一种通用的表示方法，以减轻对每个游戏进行表示学习的负担，并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。

Dec, 2015