使用深度循环 Q 学习预测交互环境中注视位置

Dec, 2016

使用深度循环 Q 学习预测交互环境中注视位置

Learning to predict where to look in interactive environments using deep recurrent q-learning

Sajad Mousavi, Michael Schukat, Enda Howley, Ali Borji, Nasser Mozayani

TL;DR本文利用强化学习和软注意机制结合的 Deep Q-Network 模型教导代理人玩游戏时关注视觉输入的最相关部分，并通过在多个 Atari 2600 游戏上的评估，证明软注意力模型可以比 Itti-Kochs 显著地预测焦点位置。

Abstract

Bottom-Up (BU) saliency models do not perform well in complex interactive environments where humans are actively engaged in tasks (e.g., sandwich making and playing the video games). In this paper, we leverage reinforcement learning (RL) to highlight task-relevant locations of input fr

bottom-up saliency models reinforcement learning soft attention mechanism deep q-network model atari 2600 games

发现论文，激发创造

基于注意力增强代理的可解释强化学习

本文提出了一种结合软性、自上而下的注意机制的强化学习模型，使用信息瓶颈迫使智能体只关注任务相关信息，从而生成容易解释的模型。在 ATARI 游戏上实现了与最先进模型竞争力相当的性能。

Jun, 2019

深度关注递归 Q 网络

通过深度强化学习方法，利用软、硬注意力机制的扩展 DQN 算法，以 Atari 游戏为测试模型，表明其性能优于 DQN，并且内置的注意机制使得可以直接监控训练过程。

Dec, 2015

深度无模型强化学习中的感知学习

本文提出了一个用于强化学习（RL）的新型无模型代理人，从视觉关注和主动感知的概念中受到启发，将人类注意力机制应用于代理人，创建了一种硬式关注机制，结合了 RAM 模型和 PPO 算法，在两个 Atari 游戏中比较其性能，结果表明我们的模型能够匹配 PPO+LSTM 的表现。

Jan, 2023

行动之前起身：利用人类的视觉注意力进行持续学习

本文介绍了在 DeepMind Lab 的三维迷宫中，通过训练代理使用原始图像以及与基于实时谱残差技术生成的显著性地图相叠加的凝视图像，探索利用人类注意力聚焦来进行决策的有效性，并研究了在环境噪声下的迁移学习表现。

Jul, 2018

可视化及理解雅达利智能体

本文针对 Atari 2600 游戏环境的深度强化学习智能体，通过生成显著图以及对其进行分析，揭示了强化学习智能体学习和执行策略的方式，并且在测试了普通人的行为决策时，证明了该方法的有效性。

Oct, 2017

ViSaRL：人眼显著性引导的视觉强化学习

用基于视觉显著性引导的强化学习（ViSaRL）来训练机器人从高维像素输入中执行复杂的控制任务，通过优化视觉表征，ViSaRL 显著提高了强化学习代理在不同任务上的成功率、样本效率和泛化能力。

Mar, 2024

基于显著性引导的 Q - 网络在视觉强化学习中的泛化

本研究通过引入基于显著性的 Q 网络（SGQN），提出了一种通用的视觉强化学习方法，该方法对 Deepmind 的控制泛化基准进行了改进，从而在训练效率、泛化差距和策略可解释性等方面创造了新纪录。

Sep, 2022

目标敏感的深度强化学习

该研究提出了一种新方法，可以将物体识别处理引入深度强化学习模型，提供了一种新方法来解释深度强化学习智能体的行动，并在 Atari 游戏方面取得了最先进的结果。

Sep, 2018

使用逆向强化学习预测目标导向的人类注意力

本文提出了第一个反向强化学习模型 (IRL) 模型，使用动态的上下文信念地图来学习人类视觉搜索中的内部奖励函数和策略，并且为了训练和评估我们的 IRL 模型，我们创建了 COCO-Search18 数据集，通过提取学习出的奖励地图，可以了解到目标依赖型背景的学习。

May, 2020

神经网络结构对于识别时间延长的强化学习任务的影响

通过注意力机制构建的强化学习架构在 OpenAI Gym Atari-2600 游戏套件上表现出色，并提供了对代理程序在环境中感知的洞察力。在图像为基础的强化学习领域，我们还提出了一种基于视觉 Transformer 的架构，与以前的方法相比，模型训练速度更快且需要更少的计算资源。

Oct, 2023