NLP 中的非标准 (或非规范) 语言应对措施

Aug, 2016

NLP 中的非标准 (或非规范) 语言应对措施

What to do about non-standard (or non-canonical) language in NLP

Barbara Plank

TL;DR本文旨在借助杂乱无序的非标准数据，通过适当的算法结合，解决自然语言处理中的性能下降问题和语言的多样性问题，从而生产出更强大和适应性更强的自然语言技术。

Abstract

real world data differs radically from the benchmark corpora we use in natural language processing (NLP). As soon as we apply our technologies to the real world, performance drops. The reason for this problem is

real world data natural language processing canonicity fortuitous data language technology

发现论文，激发创造

代码交替的计算处理挑战

本文探讨了在非规范化的混合两种或更多语言的多语言数据上进行自然语言处理的挑战，重点关注语言识别、依存分析和机器翻译等 NLP 任务的关键问题。

Oct, 2016

文本的包容性概念

本研究旨在确定自然语言处理中所谓文本的概念，并提出一套通用术语和分类体系，以扩展文本的范围，从而更好地进行 NLP 建模。该研究强调了包容性方法在 NLP 中处理文本的重要性，并呼吁开发者采用系统化的报告方式，以巩固该话题。

Nov, 2022

科学文献是多语种的，我们的模型也应如此

英语一直被认为是科学研究的 $ extit {lingua franca}$，然而，该研究表明文献主要以多种语言出现，因此建议当前的模型和基准应该体现这种语言多样性，以提高在非英语文献上的表现。

Mar, 2024

通过基于词典的适应扩展预训练模型以覆盖数千种更多语言

本文探究了利用双语词典作为文本资源，从而使得多语言预训练模型的性能不再依赖于单一语种下的文本数据，通过不同策略合成文本或标注数据，并与单语文本或平行文本相结合，以提高在三个任务上 19 种欠发达语言的性能，为千余种使用 NLP 技术的欠代表语种提供了思路。

Mar, 2022

语言污染现象解释英语预训练模型的跨语言能力

本文研究预训练语言模型在跨语言转移方面的表现，发现常见的英文预训练集中包含大量非英文文本，即使数量仅占不到 1%，也会导致大规模数据集中有数亿个外语词汇。作者还展示了即使是这些少量的非英文数据，也能够促进模型在目标语言上的跨语言转移，并且目标语言性能与预训练中见到的该语言数据量强相关。因此，我们认为在评估跨语言转移时，应该考虑到预训练模型不是真正的单语言模型。

Apr, 2022

我们正在呼唤干预：对语言模型在不同类型语言变异中的适应性进行深入研究

通过一系列干预和实验证明，我们可以理解语言模型对于存在语言变异（例如非标准或方言文本）的文本的适应性。在包括字符级、子词级和词级变化的语言变异方面进行干预，通过不同规模和性质的训练数据进行语言模型适应，我们对于语言变异对于语言模型的困难有了重要的认识。我们的发现对于方言自然语言处理和增强语言模型对语言变异的鲁棒性的未来研究有着重要的启示。我们公开提供了可以应用于任何英文文本数据的干预代码。

Apr, 2024

一些语言比其他语言更重要：深入探究 NLP 世界中的语言差异

该论文通过对 NLP 领域不同语言间存在的差异进行综合分析，基于现有的说话人口和活力等方面的语言分类，研究数据资源、NLP/CL 研究、多语言网络平台和预训练多语言模型的分布情况，发现许多语言并未被覆盖，同时明显存在差异，对此提出了一些原因和建议。

Oct, 2022

合成数据是否使得大型语言模型更高效？

本文探讨了在自然语言处理中合成数据生成的细微差别，重点放在基于模板的问题生成上，并比较了其优点和局限性，最后通过实证评估展示了基于模板的合成数据对现代转换器模型性能的影响。研究结果旨在指导自然语言处理从业者在利用合成数据的潜力上，确保在多种应用中获得最佳模型性能。

Oct, 2023

多语种多样性增强视觉 - 语言表示

使用多语言数据集进行预训练可以提高在多个视觉任务中的性能，包括对非英语数据的使用，以及增加地理多样性任务中非洲地区的表现。

May, 2024

朝着更好的包容性：一种多样化的英语方言推文语料库

通过采集和分析社交媒体上的英语变种示例，我们旨在解决自然语言处理中的偏见问题。我们将建立一个来自使用非标准英语变种的国家的推文数据集，并提出一个标注框架，通过度量标准英语的程度间接揭示这些推文中英语变种的表现。我们的语料库突出了在西方英语和非西方（即较不标准）英语变种之间的预训练语言识别器准确性差异，并希望为识别和减少自然语言处理中的隐含人口统计差异做出贡献。

Jan, 2024