本文介绍一种新的神经网络架构,即竞争网络,用于无模型强化学习。竞争网络表示两个独立的估计器:状态值函数和状态依赖性动作优势函数。结果表明,竞争架构有助于在类似值的动作存在的情况下实现更好的策略评估,并使得强化学习代理能够在Atari 2600领域超越现有技术。
Nov, 2015
本文在 Minecraft 中引入了一组新的强化学习任务,并使用这些任务系统地比较和对比现有的深度强化学习架构和我们的新的基于记忆的深度强化学习架构。实验结果表明,我们的新架构相比现有的深度强化学习架构,在未使用的环境中有更好的泛化表现。
May, 2016
本研究将宽容度应用于多智能体深度强化学习中,通过控制弱化负面策略更新所用的温度值,引入了乐观主义来更新价值函数,从而促进了协作,并在长期规划进程中很可能收敛到最优策略。实证评估表明,相比于标准和调度HDQN代理,LDQN代理更有可能在具有随机奖励的任务中收敛到最优策略。
Jul, 2017
本文综述了深度强化学习(DRL)的进展,包括基于价值、基于策略和基于模型的算法,并对其在游戏AI领域内的应用和挑战进行了讨论和总结。
Dec, 2019
本论文提出了一种基于 Stored Embeddings for Efficient Reinforcement Learning (SEER) 的改进深度强化学习方法,以减少计算和内存要求,并且在 DeepMind Control 和 Atari 游戏等不同环境中进行了实验证明其可行性。
Mar, 2021
本书提供了深度强化学习领域的全面概述,主要涵盖了建立领域基础,算法和应用,同时介绍了一些先进主题,如深度多智能体强化学习、深层次强化学习和深元学习;本书适用于人工智能的研究者、从业者和研究生,假定读者具有本科水平的计算机科学和人工智能理解,编程语言使用Python。
Jan, 2022
本论文提出了一种低维观察过滤器,使深度Q网络代理能够在视觉复杂的现代视频游戏(Neon Drive)中成功玩耍。
Apr, 2022
我们提出了一种基于深度 Q 网络算法的记忆效率强化学习算法,通过从目标 Q 网络到当前 Q 网络合并知识,减少遗忘并保持高的样本效率。与基线方法相比,在特征和图像任务中取得了相当或更好的性能,同时减轻了大经验重放缓冲区的负担。
May, 2022
通过差分编码观察空间,将基于图像的观察重新解释为视频,并利用无损差分视频编码方案来压缩回放缓冲区,以降低记忆占用,提高学习性能和延迟。
Oct, 2023
该研究通过神经进化的方式使用演化策略(ES),优化神经网络的权重来进行直接策略搜索,结果表明ES能够在许多强化学习基准任务中找到有效的线性策略,相比深度强化学习方法,ES实现效果与梯度下降算法相当,并且通过直接访问游戏的内存状态,在Atari游戏中胜过了DQN。
Feb, 2024