动态帧跳跃深度 Q 网络

IJCAIMay, 2016

Dynamic Frame skip Deep Q Network

Aravind Srinivas, Sahil Sharma, Balaraman Ravindran

TL;DR该论文提出了一种新的 Deep Reinforcement Learning 架构，Dynamic Frame skip Deep Q-Network (DFDQN)，它使 Frame Skip Rate 成为一个动态可学习的参数，从而能够根据当前状态选择要重复的动作次数，并且成功提高了在 Seaquest 等较难游戏中的表现。

Abstract

deep reinforcement learning methods have achieved state of the art performance in learning control policies for the games in the atari 2600 domain. One of the important parameters in the Arcade Learning Environme

deep reinforcement learning atari 2600 frame skip rate dynamic frame skip deep q-network seaquest

发现论文，激发创造

FDQN：一种用于游戏自动化的灵活深度 Q 网络框架

在这项研究中，提出了一种最新的灵活深度 Q 网络 (FDQN) 框架，能够通过自适应方法在动态环境中处理高维度感知数据，实时进行决策，并动态调整模型结构以适应不同游戏环境的行动空间，相对于基准模型，在各种 Atari 游戏和 Chrome Dino 游戏中取得优异表现。该框架采用 epsilon-greedy 策略有效平衡新的学习和探索，其模块化结构可以轻松应用于其他基于 HTML 的游戏，同时提到了该框架在实验室条件下成功解决了一个明确定义的任务，并探讨了其在更具挑战的真实世界情境和自动化游戏玩法等领域的潜在应用。

May, 2024

使用浅层强化学习技术控制 Atari 游戏的现状

本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键，并提供一种通用的表示方法，以减轻对每个游戏进行表示学习的负担，并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。

Dec, 2015

演示中的深度 Q 学习

本文介绍了 Deep Q-learning from Demonstrations（DQfD）算法，并探究其应用于真实环境下学习任务的可行性以及其在模拟环境和真实环境中的表现；同时，DQfD 算法通过采用优先重放机制以及组合时差更新和监督学习来利用少量演示数据显著加速学习过程。实验表明，DQfD 相较于其他三种相关算法在学习任务中具有更好的表现，并可通过人类演示数据来实现一些领先于其他算法的新的最优成果。

Apr, 2017

定时奇异 - 深度动态 Q: 对话策略学习的高效探索

基于 Deep Dyna-Q (DDQ) 模型的好奇心驱动的课程学习框架，通过计划学习和好奇心的引入，在任务导向的对话代理培训过程中获得显著改进，并发现了易先与难先策略更适合 SC-DDQ 和 DDQ。

Jan, 2024

深度关注递归 Q 网络

通过深度强化学习方法，利用软、硬注意力机制的扩展 DQN 算法，以 Atari 游戏为测试模型，表明其性能优于 DQN，并且内置的注意机制使得可以直接监控训练过程。

Dec, 2015

从弱演示中学习对话策略

本研究提出一种基于 Deep Q-learning from Demonstrations 的 Reinforced Fine-tune Learning 方法，利用 labeled、reduced-labeled 和 unlabeled data 训练 expert demonstrators，以解决多领域对话系统中 state 和 action 空间较大的问题，并在实验中取得了较高的成功率。

Apr, 2020

基于交换机的主动式深度 Dyna-Q: 用于任务完成对话策略学习的高效自适应规划

本研究使用强化学习训练任务完成对话代理人，在集成世界模型的基础上通过使用模拟经验有效提高训练效率，通过引入开关和主动学习改进 Deep Dyna-Q 框架，提出了 Switch-based Active Deep Dyna-Q（Switch-DDQ）算法，同时也在仿真和人工评估中证明了该算法相较于 DDQ 和 Q-learning 有着显着的改进。

Nov, 2018

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

使用深度强化学习玩射击游戏

本研究提出了一种融合游戏特征信息的深度强化学习神经网络模型，其能够在处理 3D FPS 游戏的部分可观察状态下显著提高训练效率和性能。

Sep, 2016

参数化动作空间的多次通过 Q 网络用于深度强化学习

提出了一种名为 MP-DQN 的新方法来解决重要的问题，有效地解决了 P-DQN 在动作空间中处理所有动作参数的局限性，从而在增加数据效率方面得到显着改善，并在平台、机器人足球目标和半场进攻等领域取得了收敛策略表现显著优于 P-DQN 和其他传统算法。

May, 2019