DA-Transformer：距离感知 Transformer

ACLOct, 2020

DA-Transformer: Distance-aware Transformer

Chuhan Wu, Fangzhao Wu, Yongfeng Huang

TL;DR本文提出了一种具备距离感知能力的 DA-Transformer 模型来捕捉输入 token 之间的真实距离信息，并将其用于自注意力计算中，实验证明该模型在五个基准数据集上的表现明显好于 Transformer 模型及其多个变体。

Abstract

transformer has achieved great success in the nlp field by composing various advanced models like BERT and GPT. However, transformer and i

transformer nlp da-transformer self-attention real distance

发现论文，激发创造

基于距离的自注意力网络用于自然语言推理

本研究提出了一种基于距离的自注意力网络模型，利用简单的距离掩码考虑单词之间的距离，以便在不失去全局信息依赖的情况下建立本地依赖关系，并在 NLI 数据方面表现出良好的性能，同时长文档也有优势；而之前的基于注意力机制的模型，则没有考虑到单词之间的距离。

Dec, 2017

相对位置表示的自注意力

本研究通过在自我关注机制中引入对序列元素相对位置或距离的表示，比绝对位置表示获得了更好的机器翻译结果。同时，将相对位置表示和绝对位置表示相结合并不能进一步提高翻译质量。

Mar, 2018

T-GSA：具有高斯加权自注意力机制的变形金刚网络用于语音增强

本文提出了一种高斯加权自注意力 Transformer 神经网络 (T-GSA)，通过自注意力机制的加权距离缩减，实现了显著的语音增强性能改进，在长程依赖任务中实现了并行化计算。

Oct, 2019

椭圆形注意力

应用 Mahalanobis 距离计算注意力权重，将模型的特征空间在高上下文相关性方向进行拉伸，从而达到减少特征塌缩和提升模型鲁棒性的效果，验证了在多个实际任务中 Elliptical Attention 相对于基线 dot-product attention 和最先进的方法的优越性。

Jun, 2024

学习图像去雨变换网络 with 动态双自注意力

该论文提出了一种基于 Transformer 的图像去雨算法，结合了密集和稀疏自注意力机制，通过选择最有用的相似性值和空间增强的前馈网络来提高去雨效果。实验证明了该方法的有效性。

Aug, 2023

释放 Transformer 在图形任务中的能力

本研究提出了一种名为 DET 的新型 Transformer 架构，采用结构编码器聚合连接邻居的信息和语义编码器聚焦于远距离节点，通过自监督训练寻找所需的远距离邻居，比使用多跳邻居的方法更为优越。实验结果表明，DET 在处理分子、网络和各种规模的知识图谱方面比对应的最新方法具有更优越的性能表现。

Feb, 2022

直接语言翻译中注意力的局部性

本文讨论了自我注意力（self-attention）在直接语音翻译中的应用。通过分析编码器中自我注意力的逐层令牌贡献，发现了局部对角线模式，并提出用局部高效的自我注意力替代标准自我注意力，通过跳过标准自我注意力废弃的权重来提高模型的效率，但仍保持与基线性能相同。

Apr, 2022

DRAformer：用于时间序列预测的差分重构注意力变换器

提出了一种基于转换器的差分重构注意模型 DRAformer，该模型通过使用差分进行稳定特征表示和集中关注序列属性解决时间序列预测中存在的问题，在四个大规模数据集上表现出了优越性。

Jun, 2022

基于查询导向的稀疏 Transformer 的长文档排名

本文介绍了一种名为 QDS-Transformer 的算法，它在 Transformer 自注意力机制的基础上，设计了稀疏的查询导向注意力机制，以在文档排序任务中实现本地化背景、分层表示和查询定向的邻近匹配，同时还具有稀疏性和计算效率。实验证明，QDS-Transformer 模型在全监督和少样本 TREC 排名基准中具有稳定和强大的优势。

Oct, 2020

语音识别和直接翻译的相对位置编码

通过在自注意力网络中采用相对位置编码方案，我们成功地让 Transformer 模型适应了语音数据的分散分布特点，并在 Switchboard 基准测试中获得了最佳识别结果，也在 MuST-C 语音翻译基准测试中获得了最佳出版结果，并且我们的模型能够更好地利用合成数据，并适应语音翻译的变量句子分割质量。

May, 2020