野外语言识别：通往千语言网络文本语料库的挑战

COLINGOct, 2020

野外语言识别：通往千语言网络文本语料库的挑战

Language ID in the Wild: Unexpected Challenges on the Path to a Thousand-Language Web Text Corpus

Isaac Caswell, Theresa Breiner, Daan van Esch, Ankur Bapna

TL;DR本研究重点讨论了大型文本语料库在自然语言处理任务中的重要性以及在多语言语境下收集这些数据集所需的核心技术 —— 自动语言识别，该文介绍了使用基于词表的精度可调过滤器和基于 Transformer 的半监督语言识别模型来提高数据集质量的方法，为接下来创建 1,000 种语言的网络文本语料库铺平了道路。

Abstract

Large text corpora are increasingly important for a wide variety of Natural Language Processing (NLP) tasks, and automatic language identification (LangID) is a core technology needed to collect such datasets in a multilingual context. LangID is largely treated as solved in the literat

natural language processing language identification multilingual datasets tunable-precision filters semi-supervised learning

发现论文，激发创造

语言识别的开放数据集和模型

该研究提出了一种基于单语数据训练的语言识别模型，其在 201 种语言上的宏平均 F1 得分为 0.93，而误报率为 0.033，将先前工作的表现远远超过。我们对数据集进行了精心筛选，通过手动审核每个来源和每种语言的样本来确保其可靠性。模型和数据集都向研究界公开，并详细分析了模型的性能。

May, 2023

350 + 种语言的分层模型在语言识别、识别错误及翻译中的应用

通过编制一个 50k+ 多语种儿童故事对齐语料库和构建轻量级的逐层模型，我们提出了一种名为 Hierarchical LIMIT 的方法来解决低资源语言的数据瓶颈问题，可用于短文本的语言识别和印度或非洲语言之间的研究。

May, 2023

文本语言识别

利用微博和深度学习技术，研发了一种可靠的语言识别引擎，在 Discriminating between Similar Languages (DSL) Shared Task 2015 数据集上达到了 95.12% 的准确率。

Jan, 2017

文本中的自动语言识别：一项调查

文章介绍了语言识别的概念及其历史，对现有的特征和方法进行了调查和评估，讨论了评估方法、应用和开放问题，并提出了未来的研究方向。

Apr, 2018

GlotLID: 低资源语言的语种识别

GlotLID-M 是一种具备广泛覆盖、可靠高效、用于辨识低资源语言的 LID 模型，通过分析语料元数据问题、高资源语言泄漏、近似语言辨别困难、处理大语种与方言等方面的挑战，希望将其整合到数据集创建过程中，提高低资源语言与文化的 NLP 技术的质量和可用性。

Oct, 2023

关于我：使用网页中的自我描述来记录英语预训练数据过滤的效果

大型语言模型的能力来源于它们的预训练数据，而模型开发始于数据筛选。我们的研究基于网络文本，将其连接到社交和地理背景，并创建了一个包含 1030 万个网站创作者自我描述的新数据集，提取了关于他们的兴趣、社交角色和地理隶属的信息。然后，我们进行了第一项研究，调查了十种 “质量” 和英语语言标识（langID）过滤器对这些社交维度变化的网页的影响。我们的实验揭示了数据筛选中一系列的隐含偏好：我们发现一些质量分类器像专题领域过滤器一样起到作用，而 langID 可能会忽视世界上某些地区的英语内容。总体而言，我们希望我们的工作能够促进关于预训练数据筛选实践及其社会影响的新的研究方向。

Jan, 2024

代码切换语言识别更加困难

通过建立代码切换语料库的应用，我们研究了代码切换语言识别，考虑到多种语言和较简单的模型架构以实现更快速推理。我们将任务重新定义为句子级多标签标注问题，以使其更易处理，并提出反映所需性能的度量指标。我们通过实证实现表明当前的方法都不足够，并在这一领域提供未来工作的建议。

Feb, 2024

地理信息辅助语种识别

通过结合地理信息，本研究开发了一种语言识别方法，形成了 16 个区域模型，覆盖 916 种语言，模型性能得到改善。

Mar, 2024

映射语言：全球语言使用语料库

本文描述了一个基于互联网语言使用的语料库，重点介绍如何利用这个语料库进行数据驱动的语言映射；通过提供有关全球语言使用的信息来支持本地化语种，并且通过对比人口统计学数据和 Twitter 数据来分析数字语言数据代表实际人口的程度。

Apr, 2020

大型语言模型进行母语识别

使用 LLMs（如 GPT-4）进行原生语言识别（NLI）的实验结果表明，GPT 模型在 NLI 分类上表现出色，在零样本设置下取得了 91.7％的性能记录。与以往的完全监督设置不同，LLMs 可以在无需限制于已知类别的情况下执行 NLI，这在实际应用中具有实际意义。此外，LLMs 还能提供选择的理由，根据拼写错误、句法模式和直接翻译的语言模式进行推理。

Dec, 2023