我们正在呼唤干预：对语言模型在不同类型语言变异中的适应性进行深入研究

Apr, 2024

我们正在呼唤干预：对语言模型在不同类型语言变异中的适应性进行深入研究

We're Calling an Intervention: Taking a Closer Look at Language Model Adaptation to Different Types of Linguistic Variation

PDF

Aarohi Srivastava, David Chiang

TL;DR通过一系列干预和实验证明，我们可以理解语言模型对于存在语言变异（例如非标准或方言文本）的文本的适应性。在包括字符级、子词级和词级变化的语言变异方面进行干预，通过不同规模和性质的训练数据进行语言模型适应，我们对于语言变异对于语言模型的困难有了重要的认识。我们的发现对于方言自然语言处理和增强语言模型对语言变异的鲁棒性的未来研究有着重要的启示。我们公开提供了可以应用于任何英文文本数据的干预代码。

Abstract

We present a suite of interventions and experiments that allow us to understand language model adaptation to text with linguistic variation (e.g., nonstandard or dialectal text). Our interventions address several

language model adaptation linguistic variation character-level variation new words dialectal nlp

发现论文，激发创造

基于数据增强的方言调适对 LLMs

该研究报告通过使用不同类型的语言模型并利用数据增强技术，提出了一种结合方法，旨在改善南斯拉夫南方微方言上大规模语言模型（LLMs）的通识推理能力评估，通过实验证明数据增强技术能够显著提升开源型模型类别在三个南斯拉夫方言（Chakavian、Cherkano 和 Torlak）的测试数据集上的性能，突出了数据增强的实际效用和 LLMs 在处理非标准方言方面的潜力以推进低资源和方言环境下的自然语言理解。

Apr, 2024

神经网络语言模型的增量适应策略

本文提出了两种优化神经网络语言模型适应新数据的方法，包括在重新采样数据上进行继续训练或插入适应性层。在 CAT 环境中应用于 SMT 系统中，这两种方法均取得了显著的改进。

Dec, 2014

语言多样性的好奇衰退：基于合成文本训练语言模型

研究通过以前辈生成的合成数据对大型语言模型进行训练的后果，重点关注这种训练方法对语言多样性的影响，特别是在逐步迭代的过程中。通过开展递归微调实验，应用一系列针对词汇、句法和语义多样性的新型度量标准，我们的研究发现模型输出的多样性在连续迭代中显著降低。这一趋势强调了在训练大型语言模型时使用前辈生成文本的潜在风险，特别是涉及保留语言丰富性方面。我们的研究突出了需要仔细考虑这种训练方法对大型语言模型的语言能力所产生的长期影响。

Nov, 2023

通过基于词典的适应扩展预训练模型以覆盖数千种更多语言

本文探究了利用双语词典作为文本资源，从而使得多语言预训练模型的性能不再依赖于单一语种下的文本数据，通过不同策略合成文本或标注数据，并与单语文本或平行文本相结合，以提高在三个任务上 19 种欠发达语言的性能，为千余种使用 NLP 技术的欠代表语种提供了思路。

Mar, 2022

量化方言差异及其与语言之间的关联

本文通过全面评估最有影响力的最新大型语言模型（LLMs）在机器翻译和自动语音识别两个高使用频率应用领域上的功能，对多个高和低资源语言的地区方言进行了功能评估，并分析了地方方言差距与经济、社会和语言因素的相关性，从而为方言 NLP 领域的发展奠定基础，并通过有意识的数据收集，揭示明显的差异并寻找可能的解决途径。

Oct, 2023

奥克西唐语方言的正字法变异建模

通过对多种奥克西唐方言的数据进行微调，我们在本研究中成功地对一种多语种模型进行了评估，结果显示该模型能够较好地表示这些方言。我们还通过编制一个包含四种奥克西唐方言的平行词汇表进行评估，结果显示模型根据方言之间的表层相似性加强了表示。当进一步对模型进行词性标注和通用依存分析微调时，其性能对方言变异是稳定的，即使仅使用单个方言的词性数据进行训练。我们的发现表明，大型多语种模型可以在预处理过程中最小化拼写规范化的需求。

Apr, 2024

使用类型层干预训练在基于子词的语言模型中引入字符级结构

该论文介绍了基于字符级别的操作（如拼写纠正、字谜游戏）对于基于子单词分词的模型非常具有挑战性。为了解决这个问题，作者采用了 Geiger 等人 2021 年的交互式干预训练方法，将其适应到基于字符的类型变量上。该方法可以在子单词分词模型的内部表示中编码稳健的、位置独立的字符级别信息。作者还介绍了一套字符级别的任务，这些任务在依赖于含义和序列级别上下文的程度上有所不同。虽然对于纯粹的形式任务（如字符串翻转）来说，简单的字符级别分词方法仍然表现最佳，但我们的方法对于更复杂的任务，如上下文中的拼写纠正和文字搜索游戏，则更加优越。我们的方法还导致了基于子单词的模型具有人类可解释的内部表示形式。

Dec, 2022

面向口语对话系统的可伸缩语言模型适应

提出了一种方法，基于手写语法直接估计 n-gram 数量和使用约束优化来适应新应用意图，同时不降低过去应用的性能，使用该方法在私人助手系统中对新应用意图进行了评估，发现即使对于没有此类应用程序的适应数据，适应可以将单词错误率提高 15％。

Dec, 2018

针对低资源语言家族的定向多语言适应

对于低资源语言，通过针对性的多语言训练，依照乌拉尔语系为案例进行调整，通过实验证明适应性的词汇大小对于低资源语言的影响相对较小，低资源语言在训练阶段能够进行积极采样而对高资源语言的性能影响微乎其微，从而为特定语境中的语言适应性提供了新的最佳实践。

May, 2024

探索构建语言特定的 LLM 的设计选择

通过对已有大语言模型进行适应和扩展，我们研究了构建语言专属的大语言模型。我们通过系统实验探究基础模型选择、词汇扩展和持续微调等设计选择对适应后的大语言模型的效率（编码同样数量信息所需的词汇数）和最终任务性能的影响。我们发现，（1）适应前的初始性能并不总是最终性能的指示；（2）大多数研究的大语言模型可以通过简单的词汇扩展和持续微调来提高效率；（3）最佳的适应方法高度依赖于语言，简单的方法在各种实验设置中都表现良好。与适应多语言模型相比，适应以英语为中心的模型在资源稀缺语言上可以取得更好的结果。总之，我们的工作为通过适应现有大语言模型高效构建语言专属大语言模型奠定了基础。

Jun, 2024