系统 2 关注力(您可能也需要)
我们分析了大型语言模型(LLMs)如何表示上下文之外的单词,研究它们依赖所给上下文来捕捉其语义的情况。我们的文本扰动指导了似然性,揭示了变形器模型中令牌似然性和注意力值之间的相关性。广泛的实验表明,意外的令牌会导致模型不太关注来自自身的信息以计算它们的表示,特别是在较高的层次上。这些发现对于评估 LLMs 在真实世界场景中的鲁棒性具有重要的影响。
Mar, 2023
本文研究了 BERT 的注意力机制,探究了两个问题:如何使用注意力机制减少输入长度和如何将注意力用作条件文本生成的控制机制,并发现 BERT 的早期层对文本分类任务的关注度更高,其注意力和可以用于过滤给定序列的令牌,一定程度上减少了输入长度同时保持良好的测试准确性。
Mar, 2023
本文提出了一种基于 Transformer 的端到端架构方法,在自动语音识别中精确建模跨话语的语境依赖,通过引入上下文感知残余注意机制,对先前语音的上下文进行编码,同时,还采用条件解码器框架将历史语言信息融入到当前预测中,结果表明该方法在几种公开对话语料库上都取得了持续的改进
Jul, 2022
本文通过实验表明,构建基于 relaxed attention 的 transformer 架构,可以通过抑制自动回归 transformer 解码器的内部语言模型,实现有效地整合外部语言模型,并且提高了通用 transformer 架构的正则化能力。
Sep, 2022
提出了基于上下文感知 NMT 的层次化注意力机制来处理整个文档的翻译,并使用稀疏注意力机制在文档上选择性地关注相关句子和关键词,将这些注意力模块产生的文档级上下文表示集成到 Transformer 模型的编码器或解码器中,通过在英德数据集上的实验进一步验证了该方法的有效性。
Mar, 2019
最近,随着大量的大型语言模型(LLMs)的出现,人工智能的实施进入了一个新时代。尽管这些模型本身具有能力和结构,但对于 LLMs 来说,能够对更长、更复杂的上下文具有增强理解能力而又保持相对较小的规模的需求不断增长。本文在对 LLMs 内部信息传递的本质进行深入研究的基础上,提出了一种名为 Attention Transition 的新技术。该技术使模型能够在最小的额外训练或对生成流畅性的影响下,实现更长、更好的上下文理解。我们的实验在 XSum 上进行,与原始生成结果相比取得了显著改进。
Jul, 2023
本研究通过分析语言模型在句子级别的注意力模式,发现神经退化可能与注意机制对任务特征的学习不足有关。因此,提出了一种称为‘实时注意力调节’的方法,该方法在推理过程中向注意力计算注入学习先验知识,有效地改善了语言模型生成的文本的流畅性、创造性和常识推理能力,并显著减少了句子级别的重复。
Jan, 2021
本文研究了一种基于 Peng et al. (2021) 的线性注意力模型,并通过句子门促进最近归纳偏置,以提高文档级机器翻译的效能和翻译质量,并在 IWSLT 2015 和 OpenSubtitles 2018 上进行了评估和测试,结果表明该模型在长序列的解码速度方面有大幅提高,且翻译得分相似或更高,并展示了句子门进一步提高了 IWSLT 上的翻译质量。
Oct, 2022
本文提出基于模块化线性化注意力(MLA)的自然语言处理技术,通过结合多种高效的注意力机制,并验证其在自回归任务上显著提升了推理质量和效率。
Apr, 2023