神经网络结构对于识别时间延长的强化学习任务的影响

Oct, 2023

神经网络结构对于识别时间延长的强化学习任务的影响

Neural architecture impact on identifying temporally extended Reinforcement Learning tasks

Victor Vadakechirayath George

TL;DR通过注意力机制构建的强化学习架构在 OpenAI Gym Atari-2600 游戏套件上表现出色，并提供了对代理程序在环境中感知的洞察力。在图像为基础的强化学习领域，我们还提出了一种基于视觉 Transformer 的架构，与以前的方法相比，模型训练速度更快且需要更少的计算资源。

Abstract

Inspired by recent developments in attention models for image classification and natural language processing, we present various Attention based architectures in reinforcement learning (RL) domain, capable of performing well on →

attention based architectures reinforcement learning interpretability openai gym vision transformer

发现论文，激发创造

基于注意力增强代理的可解释强化学习

本文提出了一种结合软性、自上而下的注意机制的强化学习模型，使用信息瓶颈迫使智能体只关注任务相关信息，从而生成容易解释的模型。在 ATARI 游戏上实现了与最先进模型竞争力相当的性能。

Jun, 2019

深度无模型强化学习中的感知学习

本文提出了一个用于强化学习（RL）的新型无模型代理人，从视觉关注和主动感知的概念中受到启发，将人类注意力机制应用于代理人，创建了一种硬式关注机制，结合了 RAM 模型和 PPO 算法，在两个 Atari 游戏中比较其性能，结果表明我们的模型能够匹配 PPO+LSTM 的表现。

Jan, 2023

使用视觉注意力进行动作识别

本文提出一种基于 soft attention 的模型，用于对视频中的动作进行识别，该模型使用多层循环神经网络 (RNNs) 和长短期记忆 (LSTM) 单元，学习有选择地专注于视频帧的某些部分，通过几个瞥见来对视频进行分类。该模型主要学习帧中哪些部分与目标任务相关，并赋予它们更高的重要性。我们在 UCF-11 (YouTube Action)、HMDB-51 和 Hollywood2 数据集上评估了该模型，并分析了模型在不同场景和不同动作下注意力的聚焦。

Nov, 2015

深度关注递归 Q 网络

通过深度强化学习方法，利用软、硬注意力机制的扩展 DQN 算法，以 Atari 游戏为测试模型，表明其性能优于 DQN，并且内置的注意机制使得可以直接监控训练过程。

Dec, 2015

基于注意力机制的深度强化学习在多视角环境中的应用

研究了多视角环境下的深度强化学习问题，并提出基于注意力机制的方法以学习动态关注环境中不同视角的重要性以促进决策制定和复杂策略的学习。在 TORCS 赛车模拟器和三个其他带有障碍物的复杂 3D 环境上验证了该方法的有效性。

May, 2019

利用连续注意力模型实现鲁棒性图像分类

本文提出了一种受人类感知启发的注意力模型，并将其融合到现代神经网络架构中。实验结果表明，引入注意力机制可以显著提高模型的对抗鲁棒性，在各种随机攻击强度下可以达到最先进的 ImageNet 准确度；通过控制注意力步骤的数量可以使模型的防御能力更强，并且可以对抗更强的攻击；攻击模型生成的对抗样本有着与传统对抗样本不同的全局、显著和空间一致的结构，这些结构来自目标类别并且甚至可以被人类识别，会使模型注意力从原始图像中的主要物体分散开来。

Dec, 2019

强化学习神经架构搜索

利用递归神经网络生成神经网络模型描述，并通过强化学习训练，使生成的结构在验证集上的预期精度最大化，可以在多个数据集上实现新型神经网络模型设计，其中 CIFAR-10 模型的测试误差率为 3.65％，优于先前采用类似结构的 SOTA 模型；在 Penn Treebank 数据集上，生成的递归单元的测试置信度比先前 SOTA 模型提高了 3.6 和 1.214。

Nov, 2016

用人类视觉注意力解释机器阅读理解中的注意力模型

通过比较使用不同架构的神经网络在机器阅读理解中的表现，发现与人类视觉注意力较为相似的 LSTM 和 CNN 模型的性能表现显著关联，但与之性能最佳的 XLNet 模型关联性不明显，提示不同架构的神经网络的注意力策略存在差异，且神经注意力与人类注意力相似性并不代表拥有最佳表现。

Oct, 2020

关于自然语言推理的循环和注意力神经模型解释研究

本篇论文使用可视化方法解释自然语言推理任务中，使用神经网络模型的中间层的特征，为深度学习模型的解释提供了一种方法。

Aug, 2018

使用深度神经网络进行 Atari 游戏中的动作条件视频预测

本文提出并评估了两种基于卷积神经网络和循环神经网络的深度神经网络架构，能够生成高维度视频的长期预测并取得了良好的可视化效果和控制功能。

Jul, 2015