双重 A3C：在 OpenAI Gym 游戏上的深度强化学习

Mar, 2023

双重 A3C：在 OpenAI Gym 游戏上的深度强化学习

Double A3C: Deep Reinforcement Learning on OpenAI Gym Games

Yangxin Zhong, Jiajie He, Lingjie Kong

TL;DR本文介绍了如何使用双重 A3C 算法和神经网络来最大化智能体在未知环境中的奖励，并在 OpenAI Gym Atari 2600 游戏中超越了基准。

Abstract

reinforcement learning (RL) is an area of machine learning figuring out how agents take actions in an unknown environment to maximize its rewards. Unlike classical Markov Decision Process (MDP) in which agent has

reinforcement learning machine learning neural network double a3c algorithm openai

发现论文，激发创造

外汇市场多智能体异步分布的交易优化深度强化学习方法

这项研究开创性地应用了多智能体强化学习（MA RL）框架与最先进的异步优势演员 - 评论家（A3C）算法，结果表明此方法可以更广泛和更快地探索不同的货币对，显著提高交易收益。此外，代理可以在较短时间内学习到更有利可图的交易策略。

May, 2024

在 3D 游戏中使用并行动作的模仿学习

本文介绍了一种新颖的深度强化学习架构，其中利用了多动作策略来提高训练效率和性能，并结合了模仿学习和时序差分强化学习来快速训练视觉系统。

Mar, 2018

DRiLLS: 深度强化学习用于逻辑综合

提出了一种基于强化学习的方法，自动化优化逻辑综合过程，通过训练 Actor Critic（A2C）智能体来实现无人工干预的设计优化，取得了较好的优化结果。

Nov, 2019

使用竞争式强化学习进行 Atari 游戏之间的视觉迁移

该论文探讨了使用深度强化学习智能体将知识从一个环境转移到另一个环境的方法，其中使用异步优势演员 - 评论家架构来使用在 Atari 中训练的代理来将目标游戏进行泛化，并使用多个代理在视觉映射 transferred targets 的基础上训练模型，以提高性能、数据效率和稳定性。该架构的功能在 OpenAI gym 中的 Atari 游戏 Pong-v0 和 Breakout-v0 中进行了演示。

Sep, 2018

视频游戏中深度强化学习综述

本文综述了深度强化学习 (DRL) 的进展，包括基于价值、基于策略和基于模型的算法，并对其在游戏 AI 领域内的应用和挑战进行了讨论和总结。

Dec, 2019

量子深度循环强化学习

本文介绍了使用量子循环神经网络和深度 Q-learning 算法来解决部分可观察环境中的量子强化学习问题，并且在数值模拟中证明了该方法在标准基准测试如 Cart-Pole 中的结果比经典 DRQN 更加稳定和具有更高的平均分数。

Oct, 2022

从二维到三维环境中的 Q 学习：利用强化学习模拟自主导航，无需依赖库

通过实证分析，本研究评估了强化学习代理在不同空间维度中的学习轨迹和适应过程，揭示了强化学习算法在导航复杂的多维空间中的有效性，并对未来研究提出了思考。

Mar, 2024

关于提高 POMDP 上深度强化学习的方法

提出了 Action-specific Deep Recurrent Q-Network (ADRQN) 的新体系结构，该体系结构使用 LSTM 层来学习潜在状态，以增强在多个部分可观察领域的学习性能，包括 Atari 游戏。

Apr, 2018

GPU 上异步优势行动者 - 评论家强化学习

介绍了一个混合 CPU/GPU 版本的异步优势 Actor-Critic（A3C）算法，分析了它的计算特性并集中讨论了借助 GPU 计算能力的关键方面，通过引入队列系统和动态调度策略，提高了算法效率；基于 TensorFlow 的混合 CPU/GPU 版本实现较 CPU 版本有着显著的加速。

Nov, 2016

深度强化学习简要调查

深度强化学习是 AI 领域的一项重大进展，可以构建具有更高层次视觉世界理解能力的自主系统。本文综述了深度强化学习的中央算法，包括基于价值和基于策略的方法，并重点介绍了深度神经网络在强化学习中的独特优势，最后描述了该领域内的几个当前研究方向。

Aug, 2017