网络中的迷信:深度强化学习玩欺骗性游戏
本文介绍了如何使用双重 A3C 算法和神经网络来最大化智能体在未知环境中的奖励,并在 OpenAI Gym Atari 2600 游戏中超越了基准。
Mar, 2023
提出一种使用异步梯度下降法优化深度神经网络控制器的深度强化学习框架,演示了四种标准强化学习算法的异步变体,并表明并行 actor-learner 对训练具有稳定作用。其中最佳表现的方法,即 actor-critic 的异步变体,在 Atari 领域超越了现有的最佳表现,并且仅在单个多核 CPU 上训练一半的时间而不是 GPU。此外,还演示了异步 actor-critic 成功处理了各种连续运动控制问题以及使用视觉输入导航随机 3D 迷宫的新任务。
Feb, 2016
本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键,并提供一种通用的表示方法,以减轻对每个游戏进行表示学习的负担,并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。
Dec, 2015
该论文研究解决游戏人工智能的反应延迟问题,通过给智能体一个神经预测模型滞后,展示了超级斗地主 Bros. Melee 等游戏中对抗专业玩家的有效性。
Oct, 2018
本研究使用 VGDL 设计了一系列谎言游戏,研究了它们如何利用认知偏见欺骗 AI 代理,发现所有被测试的代理都容易受到几种欺骗,并表示我们可以使用这些游戏来评估 AI 算法的能力和评估游戏的谎言行为。
Jan, 2018
这篇论文提出了一种新的学习方法,基于以前在强化学习中的监督学习技术,使用 Atari 游戏的视频帧来教授人工智能代理玩游戏,虽然结果不如强化学习的最新成果,但证明这种方法有潜力并值得进一步研究。
May, 2022
本文介绍了一种新的带有解释性的 Actor-Critic 强化学习模型 A2CR,通过预定义和分类行为的目的,A2CR 自动生成了更全面、可解释的决策模式,从而提供了一系列功能,如基于目的的关键性、早期故障检测和模型监督,以促进负责任和可信任的强化学习。通过在动作丰富的 Super Mario Bros 环境中的评估,发现随着强化学习算法的探索程度加深,Reasoner 预测的标签比例在 “Breakout” 中降低,而在 “Hovering” 中增加。此外,基于目的的关键性更具针对性和可理解性。
Sep, 2023
本研究展示了一种探测自学习算法在训练过程中内部概念的方法,以国际象棋游戏代理为例进行了演示,此方法适用于没有大量计算资源或机器学习模型的研究团体。
Nov, 2022
深度强化学习是 AI 领域的一项重大进展,可以构建具有更高层次视觉世界理解能力的自主系统。本文综述了深度强化学习的中央算法,包括基于价值和基于策略的方法,并重点介绍了深度神经网络在强化学习中的独特优势,最后描述了该领域内的几个当前研究方向。
Aug, 2017