使用竞争式强化学习进行 Atari 游戏之间的视觉迁移

Sep, 2018

使用竞争式强化学习进行 Atari 游戏之间的视觉迁移

Visual Transfer between Atari Games using Competitive Reinforcement Learning

Akshita Mittel, Sowmya Munukutla, Himanshi Yadav

TL;DR该论文探讨了使用深度强化学习智能体将知识从一个环境转移到另一个环境的方法，其中使用异步优势演员 - 评论家架构来使用在 Atari 中训练的代理来将目标游戏进行泛化，并使用多个代理在视觉映射 transferred targets 的基础上训练模型，以提高性能、数据效率和稳定性。该架构的功能在 OpenAI gym 中的 Atari 游戏 Pong-v0 和 Breakout-v0 中进行了演示。

Abstract

This paper explores the use of deep reinforcement learning agents to transfer knowledge from one environment to another. More specifically, the method takes advantage of asynchronous advantage actor critic (A3C)

deep reinforcement learning asynchronous advantage actor critic visual mapping atari games parallel training

发现论文，激发创造

自然语言引导的强化学习在 Atari 游戏中的探索

该研究介绍了第一个深度强化学习代理，利用自然语言指令学习打败 Ataria 游戏。代理人利用环境观察和自然语言之间的多模态嵌入来自我监控进度，并通过完成自然语言指令来获得奖励。该代理人在 Montezuma's Revenge 环境上显著优于其他代理人。

Apr, 2017

双重 A3C：在 OpenAI Gym 游戏上的深度强化学习

本文介绍了如何使用双重 A3C 算法和神经网络来最大化智能体在未知环境中的奖励，并在 OpenAI Gym Atari 2600 游戏中超越了基准。

Mar, 2023

Actor-Mimic: 深度多任务和转移强化学习

本研究提出了一种名为 “Actor-Mimic” 的多任务学习和迁移学习方法，通过深度强化学习和模型压缩技术来训练一个单一的策略网络，并通过多个专家教师的指导来学习在不同任务中的行为，并使用先前的知识解决新任务。研究结果表明，该方法的表征能力可以通过无先验的专家指导来推广到新的任务并加速学习。本方法可以应用于多样的问题，为了说明其效果，我们在 Atari 游戏上进行了测试。

Nov, 2015

使用深度强化学习玩 Atari 游戏

本文介绍了一种使用卷积神经网络和增强学习从高维感知输入中直接学习控制策略的深度学习模型，并将其应用于七个 Atari 2600 游戏中，发现在 6 个游戏上优于以往的方法，在其中三个游戏中超过了人类专家。

Dec, 2013

Atari 游戏中联合视频帧和奖励预测的深度学习方法

本文介绍一种在高维视觉状态空间下学习动态系统和奖励函数的方法，将视觉帧预测的深度神经网络扩展为同时预测奖励，利用联合优化问题最小化奖励和视觉帧的重构误差，并在五个 Atari 游戏上经过实证评估，取得了高达 200 帧的准确累计奖励预测结果。

Nov, 2016

使用浅层强化学习技术控制 Atari 游戏的现状

本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键，并提供一种通用的表示方法，以减轻对每个游戏进行表示学习的负担，并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。

Dec, 2015

使用深度神经网络进行 Atari 游戏中的动作条件视频预测

本文提出并评估了两种基于卷积神经网络和循环神经网络的深度神经网络架构，能够生成高维度视频的长期预测并取得了良好的可视化效果和控制功能。

Jul, 2015

深度强化学习的辅助任务 —— 代理建模

本文探讨了如何将演员 - 评论家（Actor-Critic）方法在深度强化学习中，尤其是异步优势演员评论家（A3C）与代理建模相结合。我们提出了两种体系结构来执行代理建模，旨在学习其他代理的策略作为辅助任务。在协作和竞争领域的实验结果表明，所提出的体系结构稳定了学习，并在学习期望报酬最佳响应时优于标准 A3C 体系结构。

Jul, 2019

深度强化学习下的端到端赛车驾驶

本文提出了使用最新的强化学习算法进行端到端驾驶研究，仅使用来自前置摄像头的 RGB 图像，通过异步演员 - 评论家 (A3C) 框架在真实的赛车游戏中学习车辆控制，并在不同的道路结构、图形和物理特性下进行评估。结果表明本方法可以快速收敛和更稳健的驾驶，同时在看不见的赛道上和法定车速下进行了广义化证明。同时，我们的方法在实际影像序列上显示出一定的领域适应能力。

Jul, 2018

MinAtar: 一个基于 Atari 的测试平台，用于进行彻底和可重现的强化学习实验

MinAtar 是一个类 Atari 的环境，用于研究强化学习智能体中涉及行为挑战的问题，其简化了表示学习的问题并提供了更少的计算，以便研究人员能够更细致地研究行为挑战。

Mar, 2019