使用深度神经网络进行 Atari 游戏中的动作条件视频预测
本文介绍一种在高维视觉状态空间下学习动态系统和奖励函数的方法,将视觉帧预测的深度神经网络扩展为同时预测奖励,利用联合优化问题最小化奖励和视觉帧的重构误差,并在五个 Atari 游戏上经过实证评估,取得了高达 200 帧的准确累计奖励预测结果。
Nov, 2016
本文介绍了一种使用卷积神经网络和增强学习从高维感知输入中直接学习控制策略的深度学习模型,并将其应用于七个 Atari 2600 游戏中,发现在 6 个游戏上优于以往的方法,在其中三个游戏中超过了人类专家。
Dec, 2013
本文提出了一种使用基于行为条件帧预测模块的防御机制,以防止深层强化学习代理遭受到对抗攻击,该方法可以检测到对抗性示例的存在,并允许代理在受到攻击时继续执行任务,在 Atari 2600 游戏中实验结果表明,该方法能够有效检测对抗性示例并在受攻击时获得较高的奖励。
Oct, 2017
本文提出了一种基于场景图像的深度卷积循环神经网络,可用于从一个初始化的场景图像中预测任务与运动规划中的动作序列。该网络可避免组合复杂性并具有很好的泛化性能,可加速任务与运动规划的运行时间。
Jun, 2020
这篇文章介绍了基于视频预测模型的 Simulated Policy Learning 方法,该方法通过在仅与环境交互 100k 次(两小时实时游戏)的情况下,在多个 Atari 游戏中实现比现有的基于模型无关的方法更好的表现。
Mar, 2019
本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键,并提供一种通用的表示方法,以减轻对每个游戏进行表示学习的负担,并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。
Dec, 2015
通过注意力机制构建的强化学习架构在 OpenAI Gym Atari-2600 游戏套件上表现出色,并提供了对代理程序在环境中感知的洞察力。在图像为基础的强化学习领域,我们还提出了一种基于视觉 Transformer 的架构,与以前的方法相比,模型训练速度更快且需要更少的计算资源。
Oct, 2023
介绍了一种新颖的行为条件视频生成框架 (ACVG),通过深度双发生器 - 行为者结构探究行为与生成的图像帧之间的关系,以机器人的行为为条件生成视频序列,从而在动态环境中探索和分析视觉和行为如何相互影响。通过对室内机器人运动数据集进行全面实证研究和详细消融研究,评估了该框架在长期视频生成中的有效性与其他最先进的框架的比较。
Apr, 2024