利用有选择性注意力建模非加强学习的偏好

Jul, 2022

利用有选择性注意力建模非加强学习的偏好

Modelling non-reinforced preferences using selective attention

Noor Sajid, Panagiotis Tigas, Zafeirios Fountas, Qinghai Guo, Alexey Zakharov...

TL;DR提出了一种人工智能代理学习无强化偏好的机制 extsc {Nore}，通过利用代理的世界模型来收集不同的经验，然后通过选择性注意和门控机制更新代理的偏好，证明了其在无外部信号和波动性下可以诱导探索性偏好的有效性。

Abstract

How can artificial agents learn non-reinforced preferences to continuously adapt their behaviour to a changing environment? We decompose this question into two challenges: ($i$) encoding diverse memories and ($ii$) selectively attending to these for preference formation. Our proposed \

artificial agents preference learning selective attention world model exploratory preferences

发现论文，激发创造

深度无模型强化学习中的感知学习

本文提出了一个用于强化学习（RL）的新型无模型代理人，从视觉关注和主动感知的概念中受到启发，将人类注意力机制应用于代理人，创建了一种硬式关注机制，结合了 RAM 模型和 PPO 算法，在两个 Atari 游戏中比较其性能，结果表明我们的模型能够匹配 PPO+LSTM 的表现。

Jan, 2023

选择的悖论：在分层强化学习中使用注意力

本文提出了一个注意机制来限制每个步骤的可用选项，通过学习 affordances 并进一步学习子目标选项，解决了层次强化学习中规划深度和分支因素的问题，并探讨了硬注意和软注意的作用，是一篇关于强化学习的研究论文。

Jan, 2022

目标导向智能体的无监督预测记忆

本文介绍了一个新的模型 MERLIN，其通过利用可预测的建模引导记忆形成，使单一的学习智能体架构能够在心理学和神经生物学中解决基本行为任务。

Mar, 2018

增强偏好驱动的强化学习中的鲁棒性：动态稀疏性提升

为了在人类中心环境中成功融入自主代理，代理应该能够从人类的本地环境中学习和适应。基于偏好的强化学习 (PbRL) 是一种能够从人类偏好中学习奖励函数的有希望的方法，使得强化学习代理能够根据人类的欲望来调整其行为。然而，人类生活在一个充满各种信息的世界中，其中大部分与完成特定任务无关。本工作提出了第一个利用动态稀疏训练原理学习健壮奖励模型并能够专注于任务相关特征的 PbRL 算法 R2N (Robust-to-Noise)。我们在极其嘈杂的环境设置中研究了 R2N 的有效性，该环境中高达 95% 的状态特征都是干扰项。通过与模拟教师的实验，我们证明了 R2N 能够调整其神经网络的稀疏连接性以专注于任务相关特征，在多个运动和控制环境中明显优于几种最先进的 PbRL 算法。

Jun, 2024

基于注意力增强代理的可解释强化学习

本文提出了一种结合软性、自上而下的注意机制的强化学习模型，使用信息瓶颈迫使智能体只关注任务相关信息，从而生成容易解释的模型。在 ATARI 游戏上实现了与最先进模型竞争力相当的性能。

Jun, 2019

增强式关注机制用于小样本学习及其扩展

本文提出了一种利用加强学习技术对注意力机制调整的方法来生成更优选择的图像嵌入向量，从而有效提高几类学习和图像分类的性能。

Apr, 2021

预训练注意力机制

通过引导模型关注输入的显著区域，或经过无监督预训练，可以提高循环神经网络在分类任务中的性能，同时可以提高注意力机制本身的效率。

Dec, 2017

基于注意力机制的深度强化学习在多视角环境中的应用

研究了多视角环境下的深度强化学习问题，并提出基于注意力机制的方法以学习动态关注环境中不同视角的重要性以促进决策制定和复杂策略的学习。在 TORCS 赛车模拟器和三个其他带有障碍物的复杂 3D 环境上验证了该方法的有效性。

May, 2019

神经网络结构对于识别时间延长的强化学习任务的影响

通过注意力机制构建的强化学习架构在 OpenAI Gym Atari-2600 游戏套件上表现出色，并提供了对代理程序在环境中感知的洞察力。在图像为基础的强化学习领域，我们还提出了一种基于视觉 Transformer 的架构，与以前的方法相比，模型训练速度更快且需要更少的计算资源。

Oct, 2023

使用深度循环 Q 学习预测交互环境中注视位置

本文利用强化学习和软注意机制结合的 Deep Q-Network 模型教导代理人玩游戏时关注视觉输入的最相关部分，并通过在多个 Atari 2600 游戏上的评估，证明软注意力模型可以比 Itti-Kochs 显著地预测焦点位置。

Dec, 2016