通过使用说明手册学习玩 Atari，实现读书有用

Feb, 2023

通过使用说明手册学习玩 Atari，实现读书有用

Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals

Yue Wu, Yewen Fan, Paul Pu Liang, Amos Azaria, Yuanzhi Li...

TL;DR通过阅读 Atari 游戏开发者发布的指南，提出了 Read and Reward 框架来提高强化学习算法的效率，在 Atari 游戏开发者发布的手册中提取相关信息，然后提供辅助奖励给标准的 A2C RL 代理，取得了在 Atari 环境中稀疏奖励下的 4 款游戏中的表现提高，并且需要比先前最优代理 Agent 57 更少的训练帧。

Abstract

High sample complexity has long been a challenge for RL. On the other hand, humans learn to perform tasks not only from interaction or demonstrations, but also by reading unstructured text documents, e.g., instruction manuals. →

reinforcement learning instruction manuals read and reward framework atari games auxiliary reward

发现论文，激发创造

在 Atari 中从人类偏好和演示中进行奖励学习

本研究使用深度神经网络进行强化学习，将人工反馈的目标作为奖励函数输入，并结合了专家演示与轨迹优先学习两种方法。实验在 9 个 Atari 游戏中超越了模仿学习的基线，并在其中 2 个游戏中获得了超人的表现，同时研究了奖励模型拟合度、奖励篡改问题和人类标签噪声的影响。

Nov, 2018

自然语言引导的强化学习在 Atari 游戏中的探索

该研究介绍了第一个深度强化学习代理，利用自然语言指令学习打败 Ataria 游戏。代理人利用环境观察和自然语言之间的多模态嵌入来自我监控进度，并通过完成自然语言指令来获得奖励。该代理人在 Montezuma's Revenge 环境上显著优于其他代理人。

Apr, 2017

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

在蒙特卡洛框架下通过阅读手册学习获胜

本文介绍了一种通过语言基础知识自动为控制算法提供指导的方法，并使用多层神经网络表示文本分析与游戏操作决策，实验证明这种基于语言知识的游戏代理系统可以显著提高控制性能和获胜概率。

Jan, 2014

基于模型的 Atari 强化学习

这篇文章介绍了基于视频预测模型的 Simulated Policy Learning 方法，该方法通过在仅与环境交互 100k 次（两小时实时游戏）的情况下，在多个 Atari 游戏中实现比现有的基于模型无关的方法更好的表现。

Mar, 2019

可视化及理解雅达利智能体

本文针对 Atari 2600 游戏环境的深度强化学习智能体，通过生成显著图以及对其进行分析，揭示了强化学习智能体学习和执行策略的方式，并且在测试了普通人的行为决策时，证明了该方法的有效性。

Oct, 2017

Atari 游戏中联合视频帧和奖励预测的深度学习方法

本文介绍一种在高维视觉状态空间下学习动态系统和奖励函数的方法，将视觉帧预测的深度神经网络扩展为同时预测奖励，利用联合优化问题最小化奖励和视觉帧的重构误差，并在五个 Atari 游戏上经过实证评估，取得了高达 200 帧的准确累计奖励预测结果。

Nov, 2016

HackAtari：强劲持续增强学习的 Atari 学习环境

通过引入可控的新奇性，我们在 Atari Learning Environment 这一最常见的强化学习基准中提出了 HackAtari 框架，以增强强化学习算法的鲁棒性和行为一致性。

Jun, 2024

强化学习中使用自然语言进行奖励塑形

使用自然语言指令进行奖励塑形，在复杂的 Atari 游戏中，比标准强化学习算法成功完成任务的次数平均提高了 60%，并且可以无缝集成到任何标准强化学习算法中。

Mar, 2019

使用竞争式强化学习进行 Atari 游戏之间的视觉迁移

该论文探讨了使用深度强化学习智能体将知识从一个环境转移到另一个环境的方法，其中使用异步优势演员 - 评论家架构来使用在 Atari 中训练的代理来将目标游戏进行泛化，并使用多个代理在视觉映射 transferred targets 的基础上训练模型，以提高性能、数据效率和稳定性。该架构的功能在 OpenAI gym 中的 Atari 游戏 Pong-v0 和 Breakout-v0 中进行了演示。

Sep, 2018