深度强化学习的竞技网络架构

Nov, 2015

Dueling Network Architectures for Deep Reinforcement Learning

Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt, Marc Lanctot...

TL;DR本文介绍一种新的神经网络架构，即竞争网络，用于无模型强化学习。竞争网络表示两个独立的估计器：状态值函数和状态依赖性动作优势函数。结果表明，竞争架构有助于在类似值的动作存在的情况下实现更好的策略评估，并使得强化学习代理能够在 Atari 2600 领域超越现有技术。

Abstract

In recent years there have been many successes of using deep representations in reinforcement learning. Still, many of these applications use conventional architectures, such as convolutional networks, LSTMs, or

deep representations reinforcement learning neural network architecture dueling network policy evaluation

发现论文，激发创造

深度强化学习中的深厚密集架构 (D2RL)

研究探究在多种模拟机器人学习基准环境下，使用更深层次、更密集连接的神经网络结构，对增强学习产生的影响，揭示出在本体感知和基于图像的观察下，采用稠密连接和深层网络有助于得到较好的表现。

Oct, 2020

Dueling 网络中央化状态值用于多机器人强化学习无地图导航

研究了多机器人地图无信息导航问题，并提出了一种新的体系结构，使用集中式状态值网络来计算联合状态值，以注入全球状态信息，从而提高样本效率并同时提供每个机器人有关全球状态的信息，实验证实了该方法的优越性。

Dec, 2021

多智能体强化学习中动作 - 价值网络的表征能力

本文探讨了深度强化学习技术在合作多智能体系统中的应用，实验结果表明不同网络架构的表现存在差异，提出了增强其表示能力来解决失败问题的建议。

Feb, 2019

使用浅层强化学习技术控制 Atari 游戏的现状

本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键，并提供一种通用的表示方法，以减轻对每个游戏进行表示学习的负担，并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。

Dec, 2015

使用双阶段训练的策略网络用于对话系统

本文提出使用训练有优势 actor-critic 方法的深度策略网络统计优化对话系统，演示了在深度强化学习下优于高斯过程方法，可以有效地训练部分可观察马尔可夫决策过程的对话系统，有效提高学习速度，所有实验在 DSTC2 餐厅领域数据集上进行。

Jun, 2016

深度强化学习的大规模并行方法

本文介绍了第一个大规模分布式深度强化学习的架构，使用 Parallel Actors、Parallel Learners、分布式神经网络和分布式体验存储等四个主要组件，在 Atari 2600 游戏中应用 Deep Q-Network 算法，获得了 41 个游戏的超越性能，并在大多数游戏中缩短了达成这些结果所需的时间。

Jul, 2015

价值预测网络

本文提出了一种新型的深度强化学习架构 Value Prediction Network，将无模型和有模型强化学习方法集成到一个神经网络中，它通过学习一个动态模型，预测未来价值而非未来观测，实验结果表明，VPN 在需要细致计划但难以建立准确观测预测模型的随机环境中具有比无模型和有模型基线更多的优点，此外，VPN 在数个 Atari 游戏上表现优于 Deep Q-Network (DQN)，具有学习良好状态表示的潜力。

Jul, 2017

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

使用深度强化学习玩射击游戏

本研究提出了一种融合游戏特征信息的深度强化学习神经网络模型，其能够在处理 3D FPS 游戏的部分可观察状态下显著提高训练效率和性能。

Sep, 2016

深度强化学习中的动作分支体系结构

本文提出了一种新的神经网络架构，其中包括一个共享的决策模块和几个网络分支，通过允许每个单独的动作维度的独立性，实现网络输出数量与自由度数量的线性增加。通过提出的代理使用比 Deep Deterministic Policy Gradient 算法更适用于具有不断增长的动作自由度的环境的性能和有效性证明了该方法的可扩展性和可行性。

Nov, 2017