基于注意力机制的外部知识融入方法

ACLJun, 2019

基于注意力机制的外部知识融入方法

Attention-based Conditioning Methods for External Knowledge Integration

Katerina Margatina, Christos Baziotis, Alexandros Potamianos

TL;DR本文提出了一种新颖的方法，将外部知识纳入循环神经网络中，通过在注意力分布中引入词汇特征来提高模型的表现，我们介绍了三种方法，并在六个基准数据集上进行了实验，结果表明这种方法可以产生稳定的性能提升，并且可以适用于任何深度神经网络架构。

Abstract

In this paper, we present a novel approach for incorporating external knowledge in recurrent neural networks (RNNs). We propose the integration of lexicon features into the →

recurrent neural networks external knowledge self-attention mechanism lexicon features attentional concatenation

发现论文，激发创造

利用知识关注力提高关系提取

本文提出了一种新颖的知识 - 注意力编码器，并介绍了三种将知识 - 注意力与自注意力相结合的有效方法。提出的关系提取系统是端到端和完全基于注意力的，实验证明知识 - 注意力机制与自注意力相互补充，在 TACRED 上实现了最先进的性能，并且胜过了现有的 CNN、RNN 和自注意力模型。

Oct, 2019

面向条件序列处理的聚焦分层循环神经网络

提出了使用基于注意力机制的人工神经网络（RNNs）来实现序列建模任务的机制，它允许 RNNs 关注需要的输入的关键部分。通过使用一个多层的有条件序列编码器，读取一个令牌并对其进行离散的决策，来控制信息流入以上层。此方法在几种任务类型上进行评估，包括各种属性的合成任务以及大规模的问答任务，并且相对于已有的基准模型，都得到了一致的性能改进。

Jun, 2018

超越自注意力：用两个线性层的外部注意力处理视觉任务

本文提出了外部注意力机制，它在现有流行的架构中方便地替换自我注意力，具有线性复杂度，隐含地考虑所有数据样本之间的关联，结合多头机制提供了外部注意力 MLP（EAMLP）体系结构，用于图像分类和其他任务中可提供与或优于自我注意力机制及其变体相当的结果，且计算和内存成本较低。

May, 2021

外部注意力增强自注意力，实现常识问答人类水平

该论文提出了一种名为 KEAR 的系统，即知识化外部关注作用于常识推理，能够显著提高现有 AI 系统的性能，在 CommonsenseQA 上达到了人类水平的正确率。

Dec, 2021

高斯注意力模型及其在知识库嵌入和问答中的应用

该论文提出了高斯注意模型，该模型用于神经记忆访问，知识库的连续向量空间嵌入，实现对知识库实体的问答，并成功应用于 2014 年 FIFA 世界杯球员数据集的路径和联合查询。

Nov, 2016

深度强化学习模型用于摘要生成

提出了一种基于编码器 - 解码器和 RNN 的自注意力神经网络模型，通过组合监督和强化学习来训练和生成连贯性和可读性更强的长文摘要，与目前最先进模型相比，在 CNN / Daily Mail 数据集上取得了 41.16 的 ROUGE-1 得分，并且人工评估表明我们的模型产生了更高质量的摘要。

May, 2017

输入单元关注减少循环神经网络消失性显著性

通过分析神经网络的显著性与循环神经网络的结构，我们发现传统结构不能解决时间上显著性消失的问题，我们提出了一种新的输入 - 细胞注意力 RNN 结构，它能够在任意时刻检测到重要特征，不仅仅在后来的时间步中，这对于 FMRI 数据分析等任务具有广泛的应用。

Oct, 2019

注意力增强卷积网络

本文针对使用卷积操作在视觉任务中只关注局部局部信息、缺乏全局信息的不足，提出运用自注意力机制对视觉任务进行处理的方法；通过在图像分类和目标检测任务中实现卷积和自注意力的融合，可有效提高模型精度。

Apr, 2019

基于知识图谱和改进注意力机制的文本分类

为了解决文本中的语义模糊问题，我们提出了一个模型，创新地将知识图谱与改进的注意机制结合起来。该模型在字符和词级别上运作，通过集成概念来加深对文本的理解。我们首先采用信息增益选择重要词，然后采用编码器 - 解码器框架对文本及相关概念进行编码。本地注意机制调整每个概念的权重，在分类过程中减少不相关或噪声概念的影响。我们改进了本地自注意机制中注意分数的计算公式，确保文本中不同频率出现的词语获得更高的注意分数。最后，该模型采用了双向门控循环单元（Bi-GRU），从文本中提取特征以提高分类准确性。该模型在 AGNews、Ohsumed 和 TagMyNews 等数据集上达到了 75.1%、58.7% 和 68.5% 的准确率，展示了其在分类任务中的有效性。

Jan, 2024

探索用于不确定性检测的不同关注维度

本文中我们为不确定性检测开发了注意力机制的神经网络，引入外部注意力和序列保持注意力等新的架构，并通过多个注意力维度与其他配置进行了比较。这些新的架构在一个 Wikipedia 基准数据集上取得了新的 state-of-the-art，在使用大量语言特征的生物医学基准测试中与现有技术相似。

Dec, 2016