更大范围的上下文语言建模
本文介绍了 CLSTM 模型,该模型将上下文特征(如主题)纳入模型中,在两个语料库上的实验结果表明,使用单词和主题作为特征可以提高模型在 NLP 任务中的性能,并在问题回答、句子完成、释义生成和对话系统中的下一句预测等 NL 应用程序中发挥重要作用。
Feb, 2016
通过引入一种新方法,结合大型语言模型(LLMs)来进行上下文化的语音识别模型,我们证明通过添加适配器的少量可训练参数,可以在保持相同的文本输入功能的同时,实现预训练 LLM 的上下文化语音识别能力并显著提高性能。
Sep, 2023
提出了一种新的句子分类方法 Context-LSTM-CNN,利用了与被分类句子相邻的句子形成的上下文和 LSTM 处理被分类句子的远距离依赖关系以及使用了基于 CNN 的短跨度特征。该方法在两个不同的数据集上始终优于以前的方法。
Aug, 2018
文本文件通常按多个层次结构化:单个单词由语法相关联,但更大的文本单元由话语结构相关联。本研究提出并实证评估了一组多级递归神经网络语言模型,称为文档上下文语言模型(DCLM),它们在句子内外都融入上下文信息。与基于单词级的递归神经网络语言模型相比,DCLM 模型预测概率略有提高,文档连贯性评估显著提高。
Nov, 2015
本研究通过切片研究分析,探讨了神经语言模型如何利用其先前的语境。结果显示,模型能有效地利用大约 200 个标记的语境,但对远古语境的词序并不敏感,而是将其建模为一个粗糙的语义领域或主题,同时这项研究还为基于缓存的模型的最近的成功提供了启示。
May, 2018
最近,随着大量的大型语言模型(LLMs)的出现,人工智能的实施进入了一个新时代。尽管这些模型本身具有能力和结构,但对于 LLMs 来说,能够对更长、更复杂的上下文具有增强理解能力而又保持相对较小的规模的需求不断增长。本文在对 LLMs 内部信息传递的本质进行深入研究的基础上,提出了一种名为 Attention Transition 的新技术。该技术使模型能够在最小的额外训练或对生成流畅性的影响下,实现更长、更好的上下文理解。我们的实验在 XSum 上进行,与原始生成结果相比取得了显著改进。
Jul, 2023
本文提出了一种新的多跨度架构,通过一种新的循环长短期上下文(LSRC)网络,显式地模拟本地(短期)和全局(长期)上下文,分别模拟短期和长期的上下文信息,用于语言模型任务。
Aug, 2017
提出了一种新颖的语义压缩方法,使得基于 Transformer 的大型语言模型(LLM)能够适用于长度为原先的 6-8 倍的文本,而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型,减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明,该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口,并且在减少相关计算开销的同时能够保持生成文本的流畅性。
Dec, 2023