双向关注作为连续单词专家的混合

Jul, 2023

双向关注作为连续单词专家的混合

Bidirectional Attention as a Mixture of Continuous Word Experts

Kevin Christian Wibisono, Yixin Wang

TL;DR通过重新参数化，将多层多头的双向注意力视为堆叠的 MoE 和混合的 MoE，从而揭示了双向注意力中使用 MoE 的独特之处，并说明了其在处理异构数据方面的实际有效性。此外，统计视角还揭示了双向注意力的词嵌入中线性类比的限制条件。

Abstract

bidirectional attention $\unicode{x2013}$ composed of self-attention with positional encodings and the masked language model (MLM) objective $\unicode{x2013}$ has emerged as a key component of modern large langua

bidirectional attention statistical model masked language model continuous bag of words mixture-of-experts

发现论文，激发创造

基于注意力机制的神经机器翻译双向分层表示

本文提出了一种层次注意机制的神经翻译模型，采用双向树形编码器来增强源端层次表示，用加权变异的注意机制平衡词汇和短语向量之间的信息，通过树形稀有词编码将该模型扩展至亚字级别以缓解词汇缺失的问题，实证结果表明，该模型在英汉翻译任务中显著优于序列到序列的注意力机制和基于树的神经翻译模型。

Jul, 2017

基于注意力头的注意力混合模型：逐标记选择注意力头

本文提出了一种新的神经网络结构 MoA （即 Mixture of Attention Heads），它结合了 Mixture-of-Experts 和 Multi-head Attention 机制，通过动态地选择 Attention Heads 实现了条件计算，有效提高了多个自然语言处理任务的性能，并提供了一种新的模型可解释性视角。

Oct, 2022

关于双向性在语言模型预训练中的作用

本文探讨了语言模型预训练的双向性作为不同方法的关键因素，并提出了一个新的框架，能够控制双向上下文和双向注意力等两种表现形式。研究表明，最佳配置因应用而异，但大规模双向模型的作用值得探究。

May, 2022

一种新的关注视角：基于双层注意力的可解释主题建模用于新闻分类

本文提出了一个新的深度学习框架，利用两级注意力体系结构来解决模型可解释性的问题，并在新闻文章分类任务中进行了实验，结果显示该模型在可解释性能力方面具有适当性并且与许多现有模型相比性能有竞争力。

Mar, 2022

机器阅读理解的双向注意力流

本文介绍了双向注意力流 (BIDAF) 网络，它是一个多阶段分层过程，在不进行早期汇总的情况下，用双向注意力流机制表示不同粒度级别的上下文，并获得了查询感知的上下文表示。实验结果表明，该模型在 Stanford Question Answering Dataset (SQuAD) 和 CNN/DailyMail cloze 测试中取得了最先进的结果。

Nov, 2016

自适应双向注意力：探索多粒度表示进行机器阅读理解

本文介绍了自适应双向注意力（Adaptive Bidirectional Attention）模型用于机器阅读理解（Machine Reading Comprehension）中，通过利用不同层次的源表示来提高预测的精度并且在 SQuAD2.0 公开数据集上的实验表明，相比于之前的最先进模型，此方法的准确度提高了 2.5％EM 和 2.3％F1 分数。

Dec, 2020

基于循环注意力模型的神经机器翻译

通过使用一个循环网络来明确地建模词语先前和随后的注意力水平之间的关系，我们改进了 Bahdanau 等人（2014）的注意力模型，并且我们的参数化注意力模型的实验表明其可以提高翻译质量。

Jul, 2016

语言建模的张量变换器

本文提出了基于张量分解和参数共享的多线性注意力模型（即 Multi-linear attention）与块状张量分解（Block-Term Tensor Decomposition，BTD）相结合的自注意力模型，该方法在语言建模和神经机器翻译任务中获得了性能改进。与多个语言建模方法（如 Transformer，Transformer-XL 和使用张量训练分解的 Transformer）相比，Multi-linear attention 不仅可以大大压缩模型参数，还可以获得性能提升。

Jun, 2019

从自注意力到马尔可夫模型：揭示生成变换器的动力学

通过研究自注意力模型与马尔科夫模型的等价关系，我们建立了一种简单而强大的框架来研究自注意力及其特性。

Feb, 2024

基于双向注意力的语音文本多模态训练，提高语音识别能力

采用双向注意力机制的多模态学习方法，能够有效地提升语音表示的语言信息，增强文本的语音表示，从而使共享的 ASR 模型更适用于无配对的文本数据预训练，仅使用配对数据学习时，单词错误率减少了 6.15％，使用更多无配对文本数据时，错误率减少了 9.23％。

Nov, 2022