深度强化学习的可扩展有限差分方法
本研究介绍了一种新的训练算法叫做 Diffused Value Function (DVF),该算法学习使用扩散模型的环境 - 机器人交互动态的联合多步模型,可以高效地捕获多个控制器的状态访问度量,并在具有挑战性的机器人基准测试中展示了有希望的定量和定性结果。
Jun, 2023
使用不同 iable 函数类逼近的离线强化学习方法在实践中得到了广泛应用,它结合了各种具有非线性和非凸结构的模型,能够显著提高算法性能;本文分析了一种最悲观的算法,并证明这种方法的有效性,为探究强化学习与不同 iable 函数逼近方法提供了新的理论基础。
Oct, 2022
通过深度强化学习动态算法选择框架,本文提出了一种旨在解决单一算法在解决不同问题实例时的有效性差异的方法,该方法利用一组算法的互补优势,并在优化过程中动态调度它们以解决特定问题。
Mar, 2024
本研究说明了一种基于进化策略的深度强化学习方法可以通过优化全部群体的平均奖励来寻找具有鲁棒性的神经网络参数,这种鲁棒性在不同领域的应用中得到了证实。与传统的有限差分法相比,这种方法不仅可以使搜索空间不同,也可以寻找不同属性的网络。
Dec, 2017
研究分布式版本的梯度时差分 (GTD) 学习算法,应用于多代理马尔可夫决策过程 (MDPs) 中。通过将问题转化为带有共识约束的约束凸优化问题,并提出原始 - 对偶分布式 GTD 算法,以证明其几乎必定收敛于优化问题的一组静止点。
Mar, 2018
采用深度强化学习算法设计交易策略,测试其在 50 种流动性最强的期货合约中的表现,并对商品、股票指数、固定收益和外汇市场等不同资产类别进行研究,证明该算法可以超越传统的时间序列动量策略模型,在重交易成本情况下实现正收益,且能够跟随市场趋势不改变仓位,并在调整期间进行缩减或持有。
Nov, 2019
本文重新探讨了残差算法在无模型和有模型强化学习中的应用,提出了双向目标网络技术来稳定残差算法,在 DeepMind 控制套件基准测试中,得到了明显优于基准 DDPG 的残差版本,同时,在模型为基础的规划中,本研究发现残差算法是解决分布不匹配问题的有效方法,与现有的 TD($k$)方法相比,我们的基于残差的方法对模型做出了更弱的假设,提高了性能。
May, 2019
本文介绍了利用统计估计回报分布的方法来设计和分析分布式强化学习算法,提出了一种新算法 EDRL,同时介绍了 ER-DQN,将 EDRL 应用在 Atari-57 游戏集上进行了评估。
Feb, 2019
本文介绍了 Deep Q-learning from Demonstrations(DQfD)算法,并探究其应用于真实环境下学习任务的可行性以及其在模拟环境和真实环境中的表现;同时,DQfD 算法通过采用优先重放机制以及组合时差更新和监督学习来利用少量演示数据显著加速学习过程。实验表明,DQfD 相较于其他三种相关算法在学习任务中具有更好的表现,并可通过人类演示数据来实现一些领先于其他算法的新的最优成果。
Apr, 2017
本研究提出了一种分布式的 TD 算法,并对其性能进行了有限分析,探讨了对应于不同网络构型、折扣因子、步长和混合时间等因素的收敛速度和逼近精度的权衡关系。
Jul, 2019