本文提出了一种层次注意机制的神经翻译模型,采用双向树形编码器来增强源端层次表示,用加权变异的注意机制平衡词汇和短语向量之间的信息,通过树形稀有词编码将该模型扩展至亚字级别以缓解词汇缺失的问题,实证结果表明,该模型在英汉翻译任务中显著优于序列到序列的注意力机制和基于树的神经翻译模型。
Jul, 2017
本文提出了一种新的神经网络结构 MoA (即 Mixture of Attention Heads),它结合了 Mixture-of-Experts 和 Multi-head Attention 机制,通过动态地选择 Attention Heads 实现了条件计算,有效提高了多个自然语言处理任务的性能,并提供了一种新的模型可解释性视角。
Oct, 2022
本文探讨了语言模型预训练的双向性作为不同方法的关键因素,并提出了一个新的框架,能够控制双向上下文和双向注意力等两种表现形式。研究表明,最佳配置因应用而异,但大规模双向模型的作用值得探究。
May, 2022
本文提出了一个新的深度学习框架,利用两级注意力体系结构来解决模型可解释性的问题,并在新闻文章分类任务中进行了实验,结果显示该模型在可解释性能力方面具有适当性并且与许多现有模型相比性能有竞争力。
Mar, 2022
本文介绍了双向注意力流 (BIDAF) 网络,它是一个多阶段分层过程,在不进行早期汇总的情况下,用双向注意力流机制表示不同粒度级别的上下文,并获得了查询感知的上下文表示。实验结果表明,该模型在 Stanford Question Answering Dataset (SQuAD) 和 CNN/DailyMail cloze 测试中取得了最先进的结果。
Nov, 2016
本文介绍了自适应双向注意力(Adaptive Bidirectional Attention)模型用于机器阅读理解(Machine Reading Comprehension)中,通过利用不同层次的源表示来提高预测的精度并且在 SQuAD2.0 公开数据集上的实验表明,相比于之前的最先进模型,此方法的准确度提高了 2.5%EM 和 2.3%F1 分数。
Dec, 2020
通过使用一个循环网络来明确地建模词语先前和随后的注意力水平之间的关系,我们改进了 Bahdanau 等人(2014)的注意力模型,并且我们的参数化注意力模型的实验表明其可以提高翻译质量。
Jul, 2016
本文提出了基于张量分解和参数共享的多线性注意力模型(即 Multi-linear attention)与块状张量分解(Block-Term Tensor Decomposition,BTD)相结合的自注意力模型,该方法在语言建模和神经机器翻译任务中获得了性能改进。与多个语言建模方法(如 Transformer,Transformer-XL 和使用张量训练分解的 Transformer)相比,Multi-linear attention 不仅可以大大压缩模型参数,还可以获得性能提升。
Jun, 2019
通过研究自注意力模型与马尔科夫模型的等价关系,我们建立了一种简单而强大的框架来研究自注意力及其特性。
Feb, 2024
采用双向注意力机制的多模态学习方法,能够有效地提升语音表示的语言信息,增强文本的语音表示,从而使共享的 ASR 模型更适用于无配对的文本数据预训练,仅使用配对数据学习时,单词错误率减少了 6.15%,使用更多无配对文本数据时,错误率减少了 9.23%。
Nov, 2022