使用一种新的分布式代理 IMPALA (Importance Weighted Actor-Learner Architecture),在 DMLab-30 和 Atari-57 的环境下进行多任务强化学习,并展示了其成功的性能和多任务学习的积极转移效果。
Feb, 2018
电力系统中的 VVO 优化日益关键,本研究提出了一种基于深度强化学习和重要性加权 Actor-Learner 架构的新颖框架,利用 RAY 平台的分布式计算和高级超参数调整功能,显著加快了 VVO 解空间中的探索和利用阶段,并取得了优于现有 DRL 方法的奖励结果和 10 倍计算要求减少的显著成果。
Feb, 2024
本文中,我们提出了一个分布式深度强化学习架构,可以使代理能够有效地从数量级更多的数据中学习,其中优先经验回放是实现高性能的关键因素。
Mar, 2018
AcceRL 是一种基于神经网络压缩的轻量级并行训练框架,它综合了多种神经网络压缩技术,用 Off-Policy 方法来优化经验,显著降低了传统方法的时间成本并保持了相同的策略质量。
Nov, 2022
该研究采用交易方法,将多智能体强化学习应用于模拟的调度环境中,研究分布式代理体系结构及自主定价在任务分配中的应用。
Jul, 2022
通过将神经网络的编译器优化问题作为强化学习问题,本文提出了一种新的解决方案,名为 ReLeASE,它通过聚类来聚焦于代表性点上的昂贵采样,并且通过在较短的时间内更好地探索来提高样本的质量。实验表明,使用自适应采样的强化学习可以大大加快优化时间并提高现代深度网络的推理时间。
May, 2019
本研究提出了一种基于 actor-work-learner 架构的分布式 MARL 框架,在 MaCA 军事模拟环境和 SMAC 3D 实时战略游戏环境中验证了其在多智能体强化学习性能提升方面的有效性。
May, 2022
本文介绍了第一个大规模分布式深度强化学习的架构,使用 Parallel Actors、Parallel Learners、分布式神经网络和分布式体验存储等四个主要组件,在 Atari 2600 游戏中应用 Deep Q-Network 算法,获得了 41 个游戏的超越性能,并在大多数游戏中缩短了达成这些结果所需的时间。
Jul, 2015
本文介绍了一种针对 Proximal Policy Optimization (PPO) 算法的改良方法,通过维度加权剪裁的方式来避免重大偏差,提高智能体高维任务的样本效率并提升新算法的性能。
通过建立加权回放缓冲区的新算法 AILBoost,该文研究了对抗性模仿学习在离策略训练中的有效性,实验证明 AILBoost 相较于 DAC 在控制器状态和像素环境中性能更佳。
Apr, 2024