动物学：在高效语言模型中测量和提高回忆率

Dec, 2023

动物学：在高效语言模型中测量和提高回忆率

Zoology: Measuring and Improving Recall in Efficient Language Models

Simran Arora, Sabri Eyuboglu, Aman Timalsina, Isys Johnson, Michael Poli...

TL;DR我们研究了无需注意力的语言模型，结合了门控和卷积的方法，发现在上下文角色联想回忆方面，注意力模型优于门控卷积模型。通过开发一项新的任务形式，多查询角色联想回忆（MQAR），我们证明了注意力和门控卷积模型之间参数效率的差异，并提出了输入相关的稀疏注意力模式来减小两者之间的差距，并且保持亚二次缩放。

Abstract

attention-free language models that combine gating and convolutions are growing in popularity due to their efficiency and increasingly com

attention-free language models gating and convolutions attention gated-convolution associative recall

发现论文，激发创造

QANet: 将局部卷积和全局自注意力相结合用于阅读理解

本文提出一种名为 QANet 的新型机器阅读和问答架构，它没有使用循环神经网络，而是仅由卷积神经网络和自注意力机制组成，可在训练和推理期间实现更快的速度，并在测试集上实现了 84.6 F1 得分，超过了最佳发布 F1 得分 81.8。

Apr, 2018

简单线性注意力语言模型平衡召回 - 吞吐量的权衡

通过应用实验和理论到广泛的架构上，我们发现语言模型的状态大小与召回能力之间存在关键权衡。我们提出了一种名为 BASED 的简单架构，结合了线性和滑动窗口的注意力机制，通过改变窗口大小和线性注意力特征维度，我们可以在召回 - 内存权衡曲线的帕累托边界上调整状态大小。我们训练了多达 13 亿参数的语言模型，并表明 BASED 在困惑度上与最强的次二次模型相匹配，在现实世界的召回密集型任务中，其准确性超过了它们 6.22 个百分点。

Feb, 2024

用于高效本地注意力的学习查询

本文提出了一种名为 query and attend（QnA）的新型 shift-invariant local attention 层，将其并入分层视觉 transformer 模型，并证明其在速度和内存复杂度方面的改善，同时又能实现与最先进的模型相当的准确度。

Dec, 2021

门控卷积网络的语言建模

本研究提出一种基于卷积神经网络的有限环境文本处理方法，采用新型简化门控机制，具有并行优势和长期学习效应，相比循环神经网络可获得更高的性能和更短的处理时间。在大规模文本任务中取得了领先水平，是非循环方法首次能够与强循环模型竞争。

Dec, 2016

问、看、答：探索基于问题引导的空间关注用于视觉问答

该论文探讨了图像和语言理解的问题，提出了一种基于神经网络的空间记忆网络模型，通过注意力机制进行推理，并在两个视觉问答数据集上取得了改进的结果。

Nov, 2015

轻量级和动态卷积：减少注意力的付出

本文研究了使用自我关注（self-attention）和动态卷积（dynamic convolutions）两种机制建立语言和图像生成模型的效率以及准确性问题，并证明了动态卷积在大规模机器翻译、语言模型和提取式摘要等任务中的表现优于强的自我关注模型，得到了 WMT'14 英德测试集中 29.7 BLEU 的最高分。

Jan, 2019

增量学习与自注意机制提升神经系统辨识

卷积神经网络是建模视觉皮质神经元转移函数的最先进方法。这篇论文发现，与参数匹配的标准卷积神经网络相比，非局部网络或自注意机制在整体调谐曲线相关性和调谐峰值这两个关键度量上可以提高神经响应预测，并且可通过分解网络确定每个上下文机制的相对贡献，揭示了局部感受野中的信息对于模拟整体调谐曲线最为重要，而周围信息对于表征调谐峰值至关重要；并且在学习过程中自注意力可以取代后续的空间整合卷积，与全连接输出层相结合，两种上下文机制相辅相成；最后，学习以接受感受野为中心的自注意模型，在逐步学习全连接输出之前，能够提供更具生物学现实性的中心 - 周围贡献的模型。

Jun, 2024

门控自注意力记忆网络用于答案选择

这篇论文提出了一个新的门控自注意力记忆网络方法，结合大规模在线语料库的简单迁移学习技术，在 TrecQA 和 WikiQA 两个标准答案选择数据集上取得了新的最先进结果。

Sep, 2019

基于时间感知的大卷积核卷积

该文章介绍了一种名为 TaLK Convolutions 的自适应卷积操作，通过预测汇总内核的大小而不是使用固定大小的内核矩阵，使序列编码过程的时间复杂度为 O (n)，从而有效地改善了注意力 / 卷积算法等方面的问题，这种方法对于大规模标准机器翻译、抽象摘要和语言建模数据集的效果具有显著的改进。

Feb, 2020

注意力增强卷积网络

本文针对使用卷积操作在视觉任务中只关注局部局部信息、缺乏全局信息的不足，提出运用自注意力机制对视觉任务进行处理的方法；通过在图像分类和目标检测任务中实现卷积和自注意力的融合，可有效提高模型精度。

Apr, 2019