深度强化学习的可扩展有限差分方法

Oct, 2022

深度强化学习的可扩展有限差分方法

A Scalable Finite Difference Method for Deep Reinforcement Learning

Matthew Allen, John Raisbeck, Hakho Lee

TL;DR本研究提出了一种将旧数据运用于有限差分算法中的新方法，从而产生出一种可伸缩且避免空闲时间或浪费计算的算法，解决了分布式黑盒优化算法的瓶颈问题。

Abstract

Several low-bandwidth distributable black-box optimization algorithms in the family of finite differences such as Evolution Strategies have recently been shown to perform nearly as well as tailored →

black-box optimization finite differences reinforcement learning distributed algorithms scalability

发现论文，激发创造

使用条件扩散模型进行价值函数估计和控制

本研究介绍了一种新的训练算法叫做 Diffused Value Function (DVF)，该算法学习使用扩散模型的环境 - 机器人交互动态的联合多步模型，可以高效地捕获多个控制器的状态访问度量，并在具有挑战性的机器人基准测试中展示了有希望的定量和定性结果。

Jun, 2023

通过可微函数逼近离线强化学习的有效性能得到保证

使用不同 iable 函数类逼近的离线强化学习方法在实践中得到了广泛应用，它结合了各种具有非线性和非凸结构的模型，能够显著提高算法性能；本文分析了一种最悲观的算法，并证明这种方法的有效性，为探究强化学习与不同 iable 函数逼近方法提供了新的理论基础。

Oct, 2022

深度强化学习用于动态算法选择：关于差分进化的原理验证研究

通过深度强化学习动态算法选择框架，本文提出了一种旨在解决单一算法在解决不同问题实例时的有效性差异的方法，该方法利用一组算法的互补优势，并在优化过程中动态调度它们以解决特定问题。

Mar, 2024

ES 不仅仅是传统有限差分近似器

本研究说明了一种基于进化策略的深度强化学习方法可以通过优化全部群体的平均奖励来寻找具有鲁棒性的神经网络参数，这种鲁棒性在不同领域的应用中得到了证实。与传统的有限差分法相比，这种方法不仅可以使搜索空间不同，也可以寻找不同属性的网络。

Dec, 2017

分布式强化学习的原始对偶算法：分布式 GTD

研究分布式版本的梯度时差分 (GTD) 学习算法，应用于多代理马尔可夫决策过程 (MDPs) 中。通过将问题转化为带有共识约束的约束凸优化问题，并提出原始 - 对偶分布式 GTD 算法，以证明其几乎必定收敛于优化问题的一组静止点。

Mar, 2018

交易的深度强化学习

采用深度强化学习算法设计交易策略，测试其在 50 种流动性最强的期货合约中的表现，并对商品、股票指数、固定收益和外汇市场等不同资产类别进行研究，证明该算法可以超越传统的时间序列动量策略模型，在重交易成本情况下实现正收益，且能够跟随市场趋势不改变仓位，并在调整期间进行缩减或持有。

Nov, 2019

深层残差强化学习

本文重新探讨了残差算法在无模型和有模型强化学习中的应用，提出了双向目标网络技术来稳定残差算法，在 DeepMind 控制套件基准测试中，得到了明显优于基准 DDPG 的残差版本，同时，在模型为基础的规划中，本研究发现残差算法是解决分布不匹配问题的有效方法，与现有的 TD（$k$）方法相比，我们的基于残差的方法对模型做出了更弱的假设，提高了性能。

May, 2019

分布式强化学习中的统计和样本

本文介绍了利用统计估计回报分布的方法来设计和分析分布式强化学习算法，提出了一种新算法 EDRL，同时介绍了 ER-DQN，将 EDRL 应用在 Atari-57 游戏集上进行了评估。

Feb, 2019

演示中的深度 Q 学习

本文介绍了 Deep Q-learning from Demonstrations（DQfD）算法，并探究其应用于真实环境下学习任务的可行性以及其在模拟环境和真实环境中的表现；同时，DQfD 算法通过采用优先重放机制以及组合时差更新和监督学习来利用少量演示数据显著加速学习过程。实验表明，DQfD 相较于其他三种相关算法在学习任务中具有更好的表现，并可通过人类演示数据来实现一些领先于其他算法的新的最优成果。

Apr, 2017

线性函数逼近分布式时序差分学习的有限时间性能

本研究提出了一种分布式的 TD 算法，并对其性能进行了有限分析，探讨了对应于不同网络构型、折扣因子、步长和混合时间等因素的收敛速度和逼近精度的权衡关系。

Jul, 2019