本研究提出了一种基于距离的自注意力网络模型,利用简单的距离掩码考虑单词之间的距离,以便在不失去全局信息依赖的情况下建立本地依赖关系,并在 NLI 数据方面表现出良好的性能,同时长文档也有优势;而之前的基于注意力机制的模型,则没有考虑到单词之间的距离。
Dec, 2017
本研究通过在自我关注机制中引入对序列元素相对位置或距离的表示,比绝对位置表示获得了更好的机器翻译结果。同时,将相对位置表示和绝对位置表示相结合并不能进一步提高翻译质量。
Mar, 2018
本文提出了一种高斯加权自注意力 Transformer 神经网络 (T-GSA),通过自注意力机制的加权距离缩减,实现了显著的语音增强性能改进,在长程依赖任务中实现了并行化计算。
Oct, 2019
应用 Mahalanobis 距离计算注意力权重,将模型的特征空间在高上下文相关性方向进行拉伸,从而达到减少特征塌缩和提升模型鲁棒性的效果,验证了在多个实际任务中 Elliptical Attention 相对于基线 dot-product attention 和最先进的方法的优越性。
Jun, 2024
该论文提出了一种基于 Transformer 的图像去雨算法,结合了密集和稀疏自注意力机制,通过选择最有用的相似性值和空间增强的前馈网络来提高去雨效果。实验证明了该方法的有效性。
Aug, 2023
本研究提出了一种名为 DET 的新型 Transformer 架构,采用结构编码器聚合连接邻居的信息和语义编码器聚焦于远距离节点,通过自监督训练寻找所需的远距离邻居,比使用多跳邻居的方法更为优越。实验结果表明,DET 在处理分子、网络和各种规模的知识图谱方面比对应的最新方法具有更优越的性能表现。
Feb, 2022
本文讨论了自我注意力(self-attention)在直接语音翻译中的应用。通过分析编码器中自我注意力的逐层令牌贡献,发现了局部对角线模式,并提出用局部高效的自我注意力替代标准自我注意力,通过跳过标准自我注意力废弃的权重来提高模型的效率,但仍保持与基线性能相同。
Apr, 2022
提出了一种基于转换器的差分重构注意模型 DRAformer,该模型通过使用差分进行稳定特征表示和集中关注序列属性解决时间序列预测中存在的问题,在四个大规模数据集上表现出了优越性。
Jun, 2022
本文介绍了一种名为 QDS-Transformer 的算法,它在 Transformer 自注意力机制的基础上,设计了稀疏的查询导向注意力机制,以在文档排序任务中实现本地化背景、分层表示和查询定向的邻近匹配,同时还具有稀疏性和计算效率。实验证明,QDS-Transformer 模型在全监督和少样本 TREC 排名基准中具有稳定和强大的优势。
Oct, 2020
通过在自注意力网络中采用相对位置编码方案,我们成功地让 Transformer 模型适应了语音数据的分散分布特点,并在 Switchboard 基准测试中获得了最佳识别结果,也在 MuST-C 语音翻译基准测试中获得了最佳出版结果,并且我们的模型能够更好地利用合成数据,并适应语音翻译的变量句子分割质量。
May, 2020