自然语言引导的强化学习在 Atari 游戏中的探索

Apr, 2017

自然语言引导的强化学习在 Atari 游戏中的探索

Beating Atari with Natural Language Guided Reinforcement Learning

Russell Kaplan, Christopher Sauer, Alexander Sosa

TL;DR该研究介绍了第一个深度强化学习代理，利用自然语言指令学习打败 Ataria 游戏。代理人利用环境观察和自然语言之间的多模态嵌入来自我监控进度，并通过完成自然语言指令来获得奖励。该代理人在 Montezuma's Revenge 环境上显著优于其他代理人。

Abstract

We introduce the first deep reinforcement learning agent that learns to beat atari games with the aid of natural language instructions. Th

deep reinforcement learning natural language instructions multimodal embedding self-monitoring atari games

发现论文，激发创造

使用深度强化学习玩 Atari 游戏

本文介绍了一种使用卷积神经网络和增强学习从高维感知输入中直接学习控制策略的深度学习模型，并将其应用于七个 Atari 2600 游戏中，发现在 6 个游戏上优于以往的方法，在其中三个游戏中超过了人类专家。

Dec, 2013

使用竞争式强化学习进行 Atari 游戏之间的视觉迁移

该论文探讨了使用深度强化学习智能体将知识从一个环境转移到另一个环境的方法，其中使用异步优势演员 - 评论家架构来使用在 Atari 中训练的代理来将目标游戏进行泛化，并使用多个代理在视觉映射 transferred targets 的基础上训练模型，以提高性能、数据效率和稳定性。该架构的功能在 OpenAI gym 中的 Atari 游戏 Pong-v0 和 Breakout-v0 中进行了演示。

Sep, 2018

在 Atari 中从人类偏好和演示中进行奖励学习

本研究使用深度神经网络进行强化学习，将人工反馈的目标作为奖励函数输入，并结合了专家演示与轨迹优先学习两种方法。实验在 9 个 Atari 游戏中超越了模仿学习的基线，并在其中 2 个游戏中获得了超人的表现，同时研究了奖励模型拟合度、奖励篡改问题和人类标签噪声的影响。

Nov, 2018

Agent57：超越 Atari 人类基准

本文提出了 Agent57，这是第一个在 57 个 Atari 游戏中超越人类水平的深度强化学习智能体，该智能体通过训练一个神经网络来参数化从探索性到完全利用性的一系列策略，并提出了一种自适应机制来选择优先考虑哪种策略。此外，我们还利用一种新颖的架构参数化形式，使得学习更加一致和稳定。

Mar, 2020

使用深度强化学习和人类检查点重现玩雅达利游戏

这篇文章提出了一种使用深度强化学习来学习玩最困难的 Atari 2600 游戏的新方法，即基于人类游戏经验的检查点回放，并使用卷积神经网络作为模型，其结果显著优于先前的学习方法和随机玩家，同时提出了一种使用人类游戏经验来训练深度强化学习智能体的方法。

Jul, 2016

强化学习中使用自然语言进行奖励塑形

使用自然语言指令进行奖励塑形，在复杂的 Atari 游戏中，比标准强化学习算法成功完成任务的次数平均提高了 60%，并且可以无缝集成到任何标准强化学习算法中。

Mar, 2019

自然语言引导的强化学习探索

本文介绍了一种使用自然语言帮助强化学习泛化至未知环境技术的方法，使用编码器 - 解码器网络来学习自然语言行为描述与状态 - 动作信息之间的关联，并使用改进的策略塑造算法来指导智能体探索，从而提高其在未知环境中的学习能力。通过对经典游戏 Frogger 的评价，表明我们的改进策略形态算法在优化学习上优于 Q-Learning 算法和基线策略形态算法。

Jul, 2017

使用浅层强化学习技术控制 Atari 游戏的现状

本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键，并提供一种通用的表示方法，以减轻对每个游戏进行表示学习的负担，并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。

Dec, 2015

仔细观察：在 Atari 上实现一致的性能表现

在本文中，我们提出了一个算法，它能够解决深度强化学习在 Atari 游戏集上遇到的三个关键难题，包括处理不同密度和规模的奖励分布、思考长时间序列以及有效地探索，该算法超过了人类在 40 个游戏上的表现，其中包括 Montezuma's Revenge 的第一关。

May, 2018

HackAtari：强劲持续增强学习的 Atari 学习环境

通过引入可控的新奇性，我们在 Atari Learning Environment 这一最常见的强化学习基准中提出了 HackAtari 框架，以增强强化学习算法的鲁棒性和行为一致性。

Jun, 2024