深呼吸：用哨兵标记增强大型语言模型的语言建模

Jun, 2024

深呼吸：用哨兵标记增强大型语言模型的语言建模

Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens

Weiyao Luo, Suncong Zheng, Heming Xia, Weikang Wang, Yan Lei...

TL;DR我们提出了一种简单而有效的方法，通过将文本分割成多个块并在每个块的末尾插入特殊标记 <SR>，修改注意力掩码以将块的信息整合到相应的 <SR> 标记中，从而使 LLMs 能够从历史上的个别标记以及 <SR> 标记中解释信息，从而汇集块的语义信息。通过语言建模和领域外下游任务的实验验证了我们方法的优越性。

Abstract

large language models (LLMs) have shown promising efficacy across various tasks, becoming powerful tools in numerous aspects of human life. However, transformer-based llms suffer a performance degradation when mo

large language models transformer-based llms long-term contexts attention mask semantic information

发现论文，激发创造

拓展与解释：解读超长语言模型

介绍了一种基于掩码采样过程（MSP）的方法，以解决长文本医疗领域的诊断预测问题。该方法可以识别出较多的临床信息文本块，并且比之前最先进的方法运行速度更快，可用于任何文本分类器。

Sep, 2022

BudgetLongformer：我们能否以低成本从头开始预训练 SotA 法律语言模型？

通过 Replaced Token Detection 任务提高训练信号量，我们训练了 Longformer 模型来展示使用更少的计算力可以预训练高效的语言模型，并在长文本摘要任务上取得了很好的性能。

Nov, 2022

语音识别的长跨度语言建模

本文探索多句子语境下神经语言模型的应用，并介绍结合了注意力机制和 LSTM 的新型模型在语音识别和长跨度语言模型方面的实验结果。

Nov, 2019

起步最困难：大规模语言模型对于时间数据的表示和分词的陷阱

介绍了大型语言模型（LLMs）在移动健康感知等人类中心任务中的使用，并通过案例研究证明了目前流行的 LLMs 对于时间数据的分词处理存在错误，提出了解决方案如轻量级嵌入层调整和多模态适配器来弥合模态差异。该论文强调了语言模型在处理输入细微差别时无法产生有意义的输出。

Sep, 2023

提升模型的上下文理解能力与更长更好的语境

最近，随着大量的大型语言模型（LLMs）的出现，人工智能的实施进入了一个新时代。尽管这些模型本身具有能力和结构，但对于 LLMs 来说，能够对更长、更复杂的上下文具有增强理解能力而又保持相对较小的规模的需求不断增长。本文在对 LLMs 内部信息传递的本质进行深入研究的基础上，提出了一种名为 Attention Transition 的新技术。该技术使模型能够在最小的额外训练或对生成流畅性的影响下，实现更长、更好的上下文理解。我们的实验在 XSum 上进行，与原始生成结果相比取得了显著改进。

Jul, 2023

使用深度自注意力进行字符级语言建模

本文通过实验证明，64 层深 (Deep) 的 transformer 模型，通过加入中间网络层和序列位置的辅助损失 (auxiliary losses)，能够在文本压缩数据 (text8) 和维基百科压缩数据 (enwik8) 数据集上超越截断反向传播 (Truncated Backpropagation) 的 RNN 变体，实现 1.13 和 1.06 的最小比特位 (bit per character)。

Aug, 2018

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023

关于大型语言模型中的位置偏差的总结化问题

对于大型语言模型，在抽象摘要任务中表现出色，但在多文档问答中存在输入上下文偏差，导致摘要内容分散，影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。

Oct, 2023

通过语义压缩扩展大型语言模型的上下文窗口

提出了一种新颖的语义压缩方法，使得基于 Transformer 的大型语言模型（LLM）能够适用于长度为原先的 6-8 倍的文本，而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型，减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明，该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口，并且在减少相关计算开销的同时能够保持生成文本的流畅性。

Dec, 2023

长程语言模型是否实际上使用了长程上下文？

该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型，发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力（例如可以从远处文本中复制的 Token），对于句子级别的预测任务没有任何帮助；并且长范围上下文对文学小说的帮助最大。

Sep, 2021