深度无模型强化学习中的感知学习

Jan, 2023

深度无模型强化学习中的感知学习

Learning to Perceive in Deep Model-Free Reinforcement Learning

Gonçalo Querido, Alberto Sardinha, Francisco S. Melo

TL;DR本文提出了一个用于强化学习（RL）的新型无模型代理人，从视觉关注和主动感知的概念中受到启发，将人类注意力机制应用于代理人，创建了一种硬式关注机制，结合了 RAM 模型和 PPO 算法，在两个 Atari 游戏中比较其性能，结果表明我们的模型能够匹配 PPO+LSTM 的表现。

Abstract

This work proposes a novel model-free reinforcement learning (RL) agent that is able to learn how to complete an unknown task having access to only a part of the input observation. We take inspiration from the concepts of visual attention and →

model-free reinforcement learning visual attention active perception hard attention mechanism proximal policy optimization

发现论文，激发创造

基于注意力增强代理的可解释强化学习

本文提出了一种结合软性、自上而下的注意机制的强化学习模型，使用信息瓶颈迫使智能体只关注任务相关信息，从而生成容易解释的模型。在 ATARI 游戏上实现了与最先进模型竞争力相当的性能。

Jun, 2019

关系深度强化学习

通过结构化感知和关系推理的方法，使用自我注意力来进行实体之间关系的迭代推理以及指导无模型策略的建立，提高了强化学习的效率、泛化能力和可解释性，并在 Box-World 任务和 StarCraft II Learning Environment 等方面取得了一定的进展。

Jun, 2018

基于模型的 Atari 强化学习

这篇文章介绍了基于视频预测模型的 Simulated Policy Learning 方法，该方法通过在仅与环境交互 100k 次（两小时实时游戏）的情况下，在多个 Atari 游戏中实现比现有的基于模型无关的方法更好的表现。

Mar, 2019

基于注意力机制的深度强化学习在多视角环境中的应用

研究了多视角环境下的深度强化学习问题，并提出基于注意力机制的方法以学习动态关注环境中不同视角的重要性以促进决策制定和复杂策略的学习。在 TORCS 赛车模拟器和三个其他带有障碍物的复杂 3D 环境上验证了该方法的有效性。

May, 2019

使用深度循环 Q 学习预测交互环境中注视位置

本文利用强化学习和软注意机制结合的 Deep Q-Network 模型教导代理人玩游戏时关注视觉输入的最相关部分，并通过在多个 Atari 2600 游戏上的评估，证明软注意力模型可以比 Itti-Kochs 显著地预测焦点位置。

Dec, 2016

视觉先见：基于模型的深度强化学习在基于视觉的机器人控制中的应用

本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法，并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型，通过选择指定像素、目标图像或图像分类器作为目标设定方法，探索实现前所未见的任务和物体的普遍泛化。

Dec, 2018

神经网络结构对于识别时间延长的强化学习任务的影响

通过注意力机制构建的强化学习架构在 OpenAI Gym Atari-2600 游戏套件上表现出色，并提供了对代理程序在环境中感知的洞察力。在图像为基础的强化学习领域，我们还提出了一种基于视觉 Transformer 的架构，与以前的方法相比，模型训练速度更快且需要更少的计算资源。

Oct, 2023

城市自主驾驶的无模型深度强化学习

本文提出了一个在复杂城市自主驾驶场景下使用无模型深度强化学习的框架，并在高清晰度驾驶模拟器中进行了验证。结果表明，与基线相比，我们的方法可以很好地解决任务，且表现显著优异。

Apr, 2019

使用深度强化学习玩射击游戏

本研究提出了一种融合游戏特征信息的深度强化学习神经网络模型，其能够在处理 3D FPS 游戏的部分可观察状态下显著提高训练效率和性能。

Sep, 2016

模型自由规划的研究

通过模型自由的深度神经网络结构，套用归纳偏差这一概念，成功实现了能够规划的强化学习智能体，并在不同领域有着较高的泛化能力和高效性。

Jan, 2019