Transformer 语言模型可以使用哪些上下文特征?
该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型,发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力(例如可以从远处文本中复制的 Token),对于句子级别的预测任务没有任何帮助;并且长范围上下文对文学小说的帮助最大。
Sep, 2021
大型语言模型(LLM)存在位置偏差,难以利用长篇上下文中间或结尾的信息。我们的研究通过探测其隐藏表示来探究 LLMs 的长篇上下文推理能力。我们发现,虽然 LLMs 编码目标信息的位置,但在生成准确回答时往往未能充分利用这一特性。这揭示了信息检索和利用之间的不一致,形成了一种 “知道但不说” 的现象。我们进一步分析了提取时间与最终准确性之间的关系,从而揭示了 Transformer 模型的基本机制。
Jun, 2024
我们分析了语言模型在多文档问答和键值检索两个任务中的性能,发现当相关信息出现在输入上下文的开头或结尾时,性能通常最高,而在长上下文中访问相关信息时性能显著下降。此外,随着输入上下文的增长,性能显著降低,即使是专门用于长上下文的模型也如此。我们的分析对语言模型如何利用输入上下文提供了更好的理解,并为未来的长上下文模型提供了新的评估协议。
Jul, 2023
本研究通过切片研究分析,探讨了神经语言模型如何利用其先前的语境。结果显示,模型能有效地利用大约 200 个标记的语境,但对远古语境的词序并不敏感,而是将其建模为一个粗糙的语义领域或主题,同时这项研究还为基于缓存的模型的最近的成功提供了启示。
May, 2018
该论文研究了利用大规模神经语言模型生成的上下文词表示对于自然语言处理任务的有效性及其可迁移性。结果表明,虽然这些表示在许多任务中表现出色,但对于需要细粒度语言知识的任务(如连词识别)而言,它们还不能胜任。此外,作者还比较了不同预训练和监督预训练方法对于任务训练的影响。
Mar, 2019
本论文研究了在大规模无监督文本语料库上预训练的语言模型,结合信息检索系统以纯无监督方式来增强预训练语言模型,并成功提高了其零样本缺失式问答系统的性能,尤其通过使用不同的分隔符处理查询和上下文,让 BERT 能够更好的判断是否匹配上下文从而增加准确性和鲁棒性。
May, 2020
研究论文探索了长文本语言模型中哪一种词汇能够更多地受益于长上下文,通过分析文本的概率变化,发现内容词汇和词汇的起始部分受益最大,上下文中的频繁模式也对预测产生显著影响,同时,模型的先验知识对预测尤为重要,尤其是对于罕见的词汇,语言模型在长上下文下变得更加自信,这种过度自信可能导致远程上下文信息中的词汇概率增加,希望该分析有助于更好地理解长文本语言建模并设计更可靠的长上下文模型。
Jun, 2024
本文使用 Transformer 的最新可解释性进展提出了分析语言生成模型的过程,并使用对比实例比较了我们的方法与渐变和扰动基线的解释的一致性,结果表明我们的方法具有更好的表现。最后,我们将该方法应用于神经机器翻译模型,并展示了生成人类相似的源 - 目标对齐结果的能力。
May, 2023
该研究通过在 Transformer 模型中引入上下文编码器,将文档级别的上下文信息融入原有的编码器和解码器中提高翻译质量,同时采用双倍训练方法,充分利用句子级别平行语料库和有限的文档级别平行语料库来训练模型,并通过 NIST 中英数据集和 IWSLT 法英数据集的实验表明,该方法显著提升了 Transformer 模型的性能表现。
Oct, 2018
研究通过束搜索集成具有长期上下文的变压器语言模型进行跨话语语音模型的解码,并与 n-best 重排序的结果进行比较。结果表明,束搜索允许更好地利用跨话语语境。
Jun, 2023