动态自注意力：动态计算单词的注意力，用于句子嵌入

Aug, 2018

动态自注意力：动态计算单词的注意力，用于句子嵌入

Dynamic Self-Attention : Computing Attention over Words Dynamically for Sentence Embedding

Deunsol Yoon, Dongbok Lee, SangKeun Lee

TL;DR本文提出了动态自注意力（DSA）机制，以改善自注意力的单词权重问题，提高句子嵌入的表现，在 Stanford 自然语言推理数据集中创造了最新的最先进结果，并在 Stanford 情感树库中取得了相似的结果。

Abstract

In this paper, we propose dynamic self-attention (DSA), a new self-attention mechanism for sentence embedding. We design DSA by modifying dynamic routing in capsule network (Sabouretal.,2017) for →

dynamic self-attention sentence embedding natural language processing stanford natural language inference stanford sentiment treebank

发现论文，激发创造

一种结构化的自注意句子嵌入

本文提出了一种基于自注意力机制的句子嵌入模型，通过使用二维矩阵表示嵌入，并让每行矩阵分别关注句子中不同的部分，提高了可解释性。并在作者分析、情感分类和文本蕴含等三个任务中进行了模型评估，在所有任务中与其它句子嵌入方法相比表现出了显著的性能提升。

Mar, 2017

基于距离的自注意力网络用于自然语言推理

本研究提出了一种基于距离的自注意力网络模型，利用简单的距离掩码考虑单词之间的距离，以便在不失去全局信息依赖的情况下建立本地依赖关系，并在 NLI 数据方面表现出良好的性能，同时长文档也有优势；而之前的基于注意力机制的模型，则没有考虑到单词之间的距离。

Dec, 2017

自注意力网络实现的动态图表示学习

本文提出了一种能够处理动态图并学习到同时捕捉结构特征和时间演化模式的节点表示的神经网络结构，称为 Dynamic Self-Attention Network (DySAT)。实验结果表明，DySAT 在通信网络和二分等级网络上的表现比多种最新图嵌入算法都有明显提高。

Dec, 2018

DiSAN: 面向无 RNN/CNN 的语言理解的定向自注意力网络

提出了一种新颖的方向性多维度自注意力机制 DiSAN，用于句子编码，相对于复杂的 RNN 模型，它在预测质量和时间效率方面表现更好，并在多个数据集上得到了最优的测试准确性表现。

Sep, 2017

针对叙事阅读理解的语境感知语义自注意力

使用语言学注释作为基础，提出结构改进并应用于长篇叙述文本的阅读理解中，通过提取段落单元之间的关系、事件与其参数以及代词提及之间的关系来提高模型的性能，尤其是在语境内部的语义角色关系、句内关系、长距离代词关系中。实验结果表明，在需考虑到句内、句间关系的长文本中，将注意力集中在这些关系上可以提高模型的性能。研究结果表明，使用语篇 - 语义注释可以增强自注意力模型在阅读理解中的泛化能力。

Aug, 2019

学习图像去雨变换网络 with 动态双自注意力

该论文提出了一种基于 Transformer 的图像去雨算法，结合了密集和稀疏自注意力机制，通过选择最有用的相似性值和空间增强的前馈网络来提高去雨效果。实验证明了该方法的有效性。

Aug, 2023

多层结构化自注意力用于远程监督关系抽取

提出了一种新颖的基于多层结构化自我关注机制的深度神经网络，在多实例学习框架下，利用双向循环神经网络进行远程监督关系抽取，该模型显著优于现有基线模型。

Sep, 2018

用于提取式文档摘要的分层结构自注意模型 (HSSAS)

提出了一种基于分层结构自注意力机制的新模型，将摘要任务作为分类问题处理，并通过信息内容、显著性、新颖性和位置表示等特征进行预测，实验结果表明该模型在 CNN / Daily Mail 和 DUC 2002 数据集上胜过当前最先进的抽取性模型。

May, 2018

任务导向接地的动态注意力网络

本文提出了一种新的动态注意力网络架构，用于文本和视觉表示的高效多模态融合，从而实现自然语言指令下机器人对环境的理解和控制，模型通过 LSTM 实现动态关注，基于任务的接地和增强学习控制中取得了良好效果。

Oct, 2019

通过精简句子嵌入，可扩展的注意力句对建模

该研究介绍一种基于知识蒸馏的 Distilled Sentence Embedding (DSE) 模型，旨在通过构建一个用于重构跨注意力模型得分的基于句子嵌入的学生模型，加速计算查询 - 候选句子对的相似度并在句子表示基准测试中达到最先进的性能。

Aug, 2019