理解语言模型中输入令牌字符的作用：信息损失如何影响性能？

EMNLPOct, 2023

理解语言模型中输入令牌字符的作用：信息损失如何影响性能？

Understanding the Role of Input Token Characters in Language Models: How Does Information Loss Affect Performance?

Ahmed Alajrami, Katerina Margatina, Nikolaos Aletras

TL;DR通过预训练语言模型使用个别单词标记的少数字符子集，我们发现即使在极端情况下，即每个标记仅使用一个字符进行预训练，与全标记模型相比，在标准 NLU 基准测试和探测任务中，性能保持较高水平，例如，仅使用标记的单个首字符进行预训练的模型，在 SuperGLUE 和 GLUE 任务中性能保持大约 90% 和 77%。

Abstract

Understanding how and what pre-trained language models (PLMs) learn about language is an open challenge in natural language processing. Previous work has focused on identifying whether they capture semantic and syntactic information, and how the data or the pre-training objective affec

pre-trained language models information loss input token characters performance retention nlu benchmarks

发现论文，激发创造

令牌知道它们的字符以及如何知道它们？

该研究探讨了在使用基于子词分割的预训练语言模型（PLMs）中，字符级信息被编码的机制以及这些模型如何获得英语语言字符信息，结论表明这些模型可以很好地编码字符级信息并通过一系列实验证明这些结果是普遍适用的，并归纳了多种现象对于知识获取的作用，其中自然变化是其中之一

Jun, 2022

预训练语言模型对标记的表面信息的认知

预训练语言模型对于令牌的表面信息具有知识，包括令牌长度和子字符串。然而，对于令牌构成方面的知识，模型存在有效利用的瓶颈。

Feb, 2024

评估神经语言模型对输入干扰的鲁棒性

我们研究了在现实世界中输入文本可能有噪音或不同于 NLP 系统训练数据分布的情景，通过各种类型的字符级和单词级扰动方法来模拟这种情况，发现语言模型对输入扰动非常敏感，即使引入了很小的变化，其性能也会下降，需要进一步改进模型并对扰动输入进行评估以更加真实地了解 NLP 系统的鲁棒性。

Aug, 2021

语言模型预训练中的学习曲线特征：学习、遗忘和稳定性

语言模型在预训练时如何学习进行预测？通过提取来自五个自回归英语语言模型预训练运行的学习曲线，我们观察到语言模型在学习生成更长更连贯的文本前会生成短重复短语。我们量化了上下文中个体标记的学习曲线的最终惊奇度、运行内变异度、习得年龄、忘却度以及跨运行的变异度。频率更高的标记达到更低的最终惊奇度，在预训练运行内外变异度更小，更早被学习，而且在预训练过程中更不容易被遗忘。更高的 n-gram 概率进一步强化了这些影响。与目标标记无关，较短且更频繁的上下文与稍微更稳定和更快习得的预测相关。词类的影响也较小，尽管名词倾向于比动词、副词和形容词后习得且更不稳定。我们的工作有助于更好地理解语言模型预训练动态并为稳定的语言模型的应用提供指导。

Aug, 2023

如何进行字符级别的编码器模型

本研究旨在为最近提出的在字符级别输出上下文表示的语言理解模型建立基准，探讨了不同架构和不同预训练目标对最终模型性能的相对贡献，发现字符级别的最佳性能超过了基于标记的模型，在多语言语言表示方面具有广泛应用前景，但最佳的训练方法仍取决于标记器的质量。

May, 2023

关于在持续预训练中有效地学习知识

通过定义知识裸露和无知识 token 并对样本进行专业标注，该研究发现 PLMs 在从非结构化文本中获取知识方面存在困难并开发了两种解决方案来帮助模型进行更多的知识自学习，实验证明了这些方法的有效性，是第一次探索做到完全自我监督的知识连续预训练。

Apr, 2022

Rho-1: 不是所有的令牌都是你所需要的

先前的语言模型预训练方法一直对所有训练标记应用相同的下一个标记预测损失。挑战这一规范，我们认为 “语言模型训练并非所有语料库中的标记都同等重要”。我们的初步分析探究了语言模型的标记级训练动态，揭示了不同标记的独特损失模式。利用这些见解，我们引入了一种名为 Rho-1 的新型语言模型。不同于传统的语言模型学习预测语料库中的每个下一个标记，Rho-1 采用选择性语言建模（SLM），选择性地训练与期望分布对齐的有用标记。该方法涉及使用参考模型对预训练标记进行评分，然后通过对具有更高过量损失的标记施加专注损失，训练语言模型。当在 150 亿个 OpenWebMath 语料库上进行连续预训练时，Rho-1 在 9 个数学任务中的小样本准确性上取得了高达 30% 的绝对改进。经过微调后，Rho-1-1B 和 7B 在 MATH 数据集上分别达到了 40.6% 和 51.8% 的最先进结果，相当于仅使用 3% 的预训练标记的 DeepSeekMath 的水平。此外，当在 800 亿个常规标记上进行预训练时，Rho-1 在 15 个不同任务中的平均提升率为 6.8%，提高了语言模型预训练的效率和性能。

Apr, 2024

学习还是回忆？再探基于预训练语言模型的增量学习

在自然语言处理领域中，基于预训练语言模型的增量学习的研究表明，现有的方法普遍低估了预训练语言模型天生的抗遗忘能力，研究者提出了一种名为 SEQ * 的简单方法，它在各项度量上与最先进的增量学习方法具有竞争力或更好的表现，并且需要较少的可训练参数和训练时间。

Dec, 2023

Breaking Character: MRLs 是否真的只需要使用子词？

对于语言中包含丰富词形的复杂语言，使用预训练字符序列的 BERT-style 掩码语言模型进行训练和推理而不是基于子单元的方式可能会得到更好的表现。但是，对于语义任务，基于子单元的 PLM 表现更好，这证实了基于子单元的分词作为许多语言的合理建模假设的潜力。

Apr, 2022

明确的形态学知识对希伯来语语言模型预训练有所改善

将显式的形态学知识引入预训练阶段可以改善用于形态学丰富语言的预训练语言模型的性能，并且基于形态学驱动的分词方法相比普通的通用语言分词方法在语义和形态任务的基准测试中显示出了改进的结果，这些发现表明将形态学知识整合进预训练语言模型中具有进一步提高形态学丰富语言性能的潜力。

Nov, 2023