NLP 中的非标准 (或非规范) 语言应对措施
本研究旨在确定自然语言处理中所谓文本的概念,并提出一套通用术语和分类体系,以扩展文本的范围,从而更好地进行 NLP 建模。该研究强调了包容性方法在 NLP 中处理文本的重要性,并呼吁开发者采用系统化的报告方式,以巩固该话题。
Nov, 2022
英语一直被认为是科学研究的 $ extit {lingua franca}$,然而,该研究表明文献主要以多种语言出现,因此建议当前的模型和基准应该体现这种语言多样性,以提高在非英语文献上的表现。
Mar, 2024
本文探究了利用双语词典作为文本资源,从而使得多语言预训练模型的性能不再依赖于单一语种下的文本数据,通过不同策略合成文本或标注数据,并与单语文本或平行文本相结合,以提高在三个任务上 19 种欠发达语言的性能,为千余种使用 NLP 技术的欠代表语种提供了思路。
Mar, 2022
本文研究预训练语言模型在跨语言转移方面的表现,发现常见的英文预训练集中包含大量非英文文本,即使数量仅占不到 1%,也会导致大规模数据集中有数亿个外语词汇。作者还展示了即使是这些少量的非英文数据,也能够促进模型在目标语言上的跨语言转移,并且目标语言性能与预训练中见到的该语言数据量强相关。因此,我们认为在评估跨语言转移时,应该考虑到预训练模型不是真正的单语言模型。
Apr, 2022
通过一系列干预和实验证明,我们可以理解语言模型对于存在语言变异(例如非标准或方言文本)的文本的适应性。在包括字符级、子词级和词级变化的语言变异方面进行干预,通过不同规模和性质的训练数据进行语言模型适应,我们对于语言变异对于语言模型的困难有了重要的认识。我们的发现对于方言自然语言处理和增强语言模型对语言变异的鲁棒性的未来研究有着重要的启示。我们公开提供了可以应用于任何英文文本数据的干预代码。
Apr, 2024
该论文通过对 NLP 领域不同语言间存在的差异进行综合分析,基于现有的说话人口和活力等方面的语言分类,研究数据资源、NLP/CL 研究、多语言网络平台和预训练多语言模型的分布情况,发现许多语言并未被覆盖,同时明显存在差异,对此提出了一些原因和建议。
Oct, 2022
本文探讨了在自然语言处理中合成数据生成的细微差别,重点放在基于模板的问题生成上,并比较了其优点和局限性,最后通过实证评估展示了基于模板的合成数据对现代转换器模型性能的影响。研究结果旨在指导自然语言处理从业者在利用合成数据的潜力上,确保在多种应用中获得最佳模型性能。
Oct, 2023
通过采集和分析社交媒体上的英语变种示例,我们旨在解决自然语言处理中的偏见问题。我们将建立一个来自使用非标准英语变种的国家的推文数据集,并提出一个标注框架,通过度量标准英语的程度间接揭示这些推文中英语变种的表现。我们的语料库突出了在西方英语和非西方(即较不标准)英语变种之间的预训练语言识别器准确性差异,并希望为识别和减少自然语言处理中的隐含人口统计差异做出贡献。
Jan, 2024