语言识别的开放数据集和模型

ACLMay, 2023

An Open Dataset and Model for Language Identification

Laurie Burchell, Alexandra Birch, Nikolay Bogoychev, Kenneth Heafield

TL;DR该研究提出了一种基于单语数据训练的语言识别模型，其在 201 种语言上的宏平均 F1 得分为 0.93，而误报率为 0.033，将先前工作的表现远远超过。我们对数据集进行了精心筛选，通过手动审核每个来源和每种语言的样本来确保其可靠性。模型和数据集都向研究界公开，并详细分析了模型的性能。

Abstract

language identification (LID) is a fundamental step in many natural language processing pipelines. However, current lid systems are far from perfect, particularly on lower-resource languages. We present a LID mod

language identification lid systems natural language processing monolingual data macro-average f1 score

发现论文，激发创造

GlotLID: 低资源语言的语种识别

GlotLID-M 是一种具备广泛覆盖、可靠高效、用于辨识低资源语言的 LID 模型，通过分析语料元数据问题、高资源语言泄漏、近似语言辨别困难、处理大语种与方言等方面的挑战，希望将其整合到数据集创建过程中，提高低资源语言与文化的 NLP 技术的质量和可用性。

Oct, 2023

文本语言识别

利用微博和深度学习技术，研发了一种可靠的语言识别引擎，在 Discriminating between Similar Languages (DSL) Shared Task 2015 数据集上达到了 95.12% 的准确率。

Jan, 2017

AfroLID: 非洲语言的神经语言识别工具

介绍了 AfroLID，一种对 517 种非洲语言进行语言识别的神经工具包，它利用了跨足 14 个语言家族和 5 个拼写系统的多域 Web 数据集，取得了 95.89 的 F1 分数，并在 Twitter 领域得到了验证。

Oct, 2022

野外语言识别：通往千语言网络文本语料库的挑战

本研究重点讨论了大型文本语料库在自然语言处理任务中的重要性以及在多语言语境下收集这些数据集所需的核心技术 —— 自动语言识别，该文介绍了使用基于词表的精度可调过滤器和基于 Transformer 的半监督语言识别模型来提高数据集质量的方法，为接下来创建 1,000 种语言的网络文本语料库铺平了道路。

Oct, 2020

健壮的开放式口语语种识别和 CU MultiLang 数据集

我们实现了一种基于 MFCC 和音高特征的 TDNN 模型、通过对 softmax 输出进行置信度阈值设置以及使用 LDA 和 pLDA 来学习对新的未知语言进行分类的开放式口语识别系统，该系统在已训练语言上达到了 91.76% 的准确率，并能够动态适应未知语言。

Aug, 2023

使用深度卷积循环神经网络进行语言识别

该论文提出了基于图像领域解决 LID 问题的模型，使用了混合的卷积循环神经网络技术对提供的音频片段的频谱图像进行分析，并在广泛的实验中证明了模型的应用性，能够轻松地扩展到以前未知的语言，同时保持其分类准确性。

Aug, 2017

BERT-LID: 利用 BERT 提升口语语言识别

我们提出了一种基于 BERT 的语言识别系统，通过提取从前端语音识别器导出的语音学后向图（PPG）作为输入，可以提高较短语音段的语言识别表现，该模型可以提高长语音段识别的基准准确率约 6.5％，提高短语音段识别的基准准确率约 19.9％，表明 BERT-LID 在语言识别方面是有效的。

Mar, 2022

基于机器学习的印度口语识别概述

本文综合评述了印度口语识别领域的研究现状及其面临的独特挑战，探讨了可用的语音语料库、已有的研究成果和未来的研究方向，有助于了解该领域现状和发展趋势。

Nov, 2022

探究语言识别模型的性能：超越简单的错误统计

研究语言识别系统在 MERLIon CCS 挑战中对不同语言特性的子集的表现，考察其对录音和语音单元的性能，并且提出评估指标的局限性和可能导致算法偏差的问题。

May, 2023

使用具有知识蒸馏的双模型增强语言识别

本研究基于双模式框架，使用知识蒸馏在 x 向量自我关注（XSA-LID）模型上，以增强其对长短发音的语言识别（LID）性能。通过分别优化完整和短模式，其输入为完整长度的语音和通过特定布尔蒙版提取的短剪辑，并在短发音中应用知识蒸馏以进一步提高性能。在 MLS14 数据集上的实验表明，在 3 秒随机位置的布尔蒙版下，相较于 XSA-LID 模型，本方法在 3 秒，10 秒和 30 秒的发音中均达到了相对成本的 19.23％，21.52％和 8.37％的提高。

Mar, 2022