高效同步深度强化学习

Dec, 2020

High-Throughput Synchronous Deep RL

Iou-Jen Liu, Raymond A. Yeh, Alexander G. Schwing

TL;DR本文介绍了一种基于高吞吐量、同步深度强化学习的方法（HTS-RL），通过并发地进行学习和推断来提高数据处理效率，同时通过避免陈旧政策和保持完全确定性的异步交互方式来提高稳定性和样本效率。我们通过在 Atari 游戏和 Google 研究足球环境上的实验结果证明，相比同步基准线，HTS-RL 可以加快 2-6 倍的速度，同时相对于最先进的异步方法，在吞吐量上具有竞争优势，始终能够实现更高的平均回合奖励。

Abstract

deep reinforcement learning (RL) is computationally demanding and requires processing of many data points. synchronous methods enjoy training stability while having lower data throughput. In contrast,

deep reinforcement learning synchronous methods asynchronous methods high-throughput determinism

发现论文，激发创造

深度强化学习的异步方法

提出一种使用异步梯度下降法优化深度神经网络控制器的深度强化学习框架，演示了四种标准强化学习算法的异步变体，并表明并行 actor-learner 对训练具有稳定作用。其中最佳表现的方法，即 actor-critic 的异步变体，在 Atari 领域超越了现有的最佳表现，并且仅在单个多核 CPU 上训练一半的时间而不是 GPU。此外，还演示了异步 actor-critic 成功处理了各种连续运动控制问题以及使用视觉输入导航随机 3D 迷宫的新任务。

Feb, 2016

物理机器人实时控制的异步强化学习

本文论述了异步学习和顺序学习的比较，并在真实环境下使用机器人手臂和视觉任务进行了实验。研究结果表明，当学习更新的时间成本增加时，顺序学习的性能会显著下降，而异步学习会明显胜过顺序学习。

Mar, 2022

一种高效的异步方法用于整合进化和基于梯度的策略搜索

本研究提出了一种异步进化策略强化学习 (AES-RL) 算法，将进化策略和策略梯度结合，并引入异步更新的方法，能够在连续控制基准测试中表现出优异的性能和时间效率。

Dec, 2020

在异步深度强化学习中使用蒙特卡罗树搜索作为演示器

本文介绍了一种新的深度强化学习方法 Asynchronous Advantage Actor-Critic (A3C-TP)，并提出一种新的框架，将规划算法和异步分布式深度强化学习方法相结合，相对于传统方法，提高了学习速度和收敛策略的能力。

Nov, 2018

探索实时循环学习的优缺点

本文研究了将实时递归学习和策略梯度相结合的演员 - 评论员方法在 DMLab、ProcGen 和 Atari-2600 环境中的应用，结果表明，在 DMLab 记忆任务中，我们的系统相比于训练了 10 B 帧的 IMPALA 和 R2D2 基线的系统，只需训练不到 1.2 B 个环境帧就能够达到很好的性能表现。

May, 2023

应用深度 Q 学习于高频交易中的统计套利增强策略之全面探索

该研究论文探讨了将强化学习应用于统计套利策略中的高频交易场景，通过利用强化学习的自适应学习能力，发现其可以揭示传统方法可能忽略的模式并设计交易策略，同时解决在金融市场中这一非稳态环境中应用强化学习所面临的挑战，并研究缓解相关风险的方法。通过广泛的模拟和回测，研究结果表明，强化学习不仅提升了交易策略的适应性，而且显示了改善盈利指标和风险调整回报的潜力，从而将其定位为下一代基于高频交易的统计套利的关键工具，为该领域的研究人员和从业者提供了洞察。

Sep, 2023

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

利用稀疏连接和选择性学习的在线实时递归学习

这篇论文介绍了一种基于循环神经网络的状态构建方法，提出了能够让实时递归学习可扩展的两个约束条件，并在基准测试和政策评估中证明了其有效性。

Jan, 2023

行为监督调节的离线强化学习

TD3-BST 是一种应用于脱机强化学习算法的不确定性模型，通过指导策略在数据集支持中选择动作，从而比先前的方法更有效地从离线数据集中学习策略，并在具有挑战性的基准测试中取得最佳性能，无需进行特定数据集的调整。

Apr, 2024

多智能体强化学习的异步演员 - 评论家算法

该论文提出一种多代理演员 - 评论家方法，允许代理在异步环境中直接优化策略，以解决多代理系统中同步决策的问题，提高学习效率和性能。

Sep, 2022