这项研究开创性地应用了多智能体强化学习(MA RL)框架与最先进的异步优势演员 - 评论家(A3C)算法,结果表明此方法可以更广泛和更快地探索不同的货币对,显著提高交易收益。此外,代理可以在较短时间内学习到更有利可图的交易策略。
May, 2024
本文介绍了一种新颖的深度强化学习架构,其中利用了多动作策略来提高训练效率和性能,并结合了模仿学习和时序差分强化学习来快速训练视觉系统。
Mar, 2018
提出了一种基于强化学习的方法,自动化优化逻辑综合过程,通过训练 Actor Critic(A2C)智能体来实现无人工干预的设计优化,取得了较好的优化结果。
Nov, 2019
该论文探讨了使用深度强化学习智能体将知识从一个环境转移到另一个环境的方法,其中使用异步优势演员 - 评论家架构来使用在 Atari 中训练的代理来将目标游戏进行泛化,并使用多个代理在视觉映射 transferred targets 的基础上训练模型,以提高性能、数据效率和稳定性。该架构的功能在 OpenAI gym 中的 Atari 游戏 Pong-v0 和 Breakout-v0 中进行了演示。
Sep, 2018
本文综述了深度强化学习 (DRL) 的进展,包括基于价值、基于策略和基于模型的算法,并对其在游戏 AI 领域内的应用和挑战进行了讨论和总结。
Dec, 2019
本文介绍了使用量子循环神经网络和深度 Q-learning 算法来解决部分可观察环境中的量子强化学习问题,并且在数值模拟中证明了该方法在标准基准测试如 Cart-Pole 中的结果比经典 DRQN 更加稳定和具有更高的平均分数。
Oct, 2022
通过实证分析,本研究评估了强化学习代理在不同空间维度中的学习轨迹和适应过程,揭示了强化学习算法在导航复杂的多维空间中的有效性,并对未来研究提出了思考。
Mar, 2024
提出了 Action-specific Deep Recurrent Q-Network (ADRQN) 的新体系结构,该体系结构使用 LSTM 层来学习潜在状态,以增强在多个部分可观察领域的学习性能,包括 Atari 游戏。
Apr, 2018
介绍了一个混合 CPU/GPU 版本的异步优势 Actor-Critic(A3C)算法,分析了它的计算特性并集中讨论了借助 GPU 计算能力的关键方面,通过引入队列系统和动态调度策略,提高了算法效率;基于 TensorFlow 的混合 CPU/GPU 版本实现较 CPU 版本有着显著的加速。
Nov, 2016
深度强化学习是 AI 领域的一项重大进展,可以构建具有更高层次视觉世界理解能力的自主系统。本文综述了深度强化学习的中央算法,包括基于价值和基于策略的方法,并重点介绍了深度神经网络在强化学习中的独特优势,最后描述了该领域内的几个当前研究方向。
Aug, 2017