南岛语系语言识别

Jun, 2022

Language Identification for Austronesian Languages

Jonathan Dunn, Wikke Nijhof

TL;DR本文提供低资源语言的语言识别模型，包括特别关注此前无法获得的亚洲语族语言，并通过实验表明基于 skip-gram 的分类器性能最佳，并在所有 29 种语言上实现了高精确度的语言识别和代码转换检测。

Abstract

This paper provides language identification models for low- and under-resourced languages in the pacific region with a focus on previously unavailable →

language identification austronesian languages code-switching detection low-resource languages pacific region

发现论文，激发创造

地理信息辅助语种识别

通过结合地理信息，本研究开发了一种语言识别方法，形成了 16 个区域模型，覆盖 916 种语言，模型性能得到改善。

Mar, 2024

350 + 种语言的分层模型在语言识别、识别错误及翻译中的应用

通过编制一个 50k+ 多语种儿童故事对齐语料库和构建轻量级的逐层模型，我们提出了一种名为 Hierarchical LIMIT 的方法来解决低资源语言的数据瓶颈问题，可用于短文本的语言识别和印度或非洲语言之间的研究。

May, 2023

使用 ConvNets 进行口语语言识别

该研究论文研究了语言识别的问题，使用了基于注意力机制和神经网络的方法，使用频谱图像作为输入以及原始波形作为特征，对六种语言进行了分类，获得了高精度的结果。

Oct, 2019

自动识别接近的印度语言：资源和实验

本文讨论了一个自动语言识别系统的尝试，该系统用于印度 5 种密切相关的印度雅利安语言：阿瓦德语、博杰普尔语、布拉吉语、印地语和马加耳语。使用不同来源的可比较语料库，编译了这些语言的长度不同的语料库。使用这些语料库，开发了一个语言识别系统，目前的准确率为 96.48％。我们还使用这些语料库研究了 5 种语言在词汇水平上的相似性，这是这些语言亲和度首个基于数据的研究。

Mar, 2018

凯尔特语文本自动语言识别

通过收集几种凯尔特语言家族的语料库，本文提出一种无监督特征提取的方法，成功训练了一个分类模型来识别低资源语种，实验结果表明，无监督特征提取可以更有效地解决缺乏标注数据的问题，并提高分类性能。

Mar, 2022

构建和扩展印尼本地语言的低资源和代表性平行数据集

介绍了 Bhinneka Korpus 这一多语种并行语料库，以增强印度尼西亚当地语言资源的获取和利用，并通过 IBM 模型 1 实验表明该语料库在进一步发展低资源语言的高级 NLP 技术和多语种翻译模型方面显示出良好的性能。

Apr, 2024

探究语言识别模型的性能：超越简单的错误统计

研究语言识别系统在 MERLIon CCS 挑战中对不同语言特性的子集的表现，考察其对录音和语音单元的性能，并且提出评估指标的局限性和可能导致算法偏差的问题。

May, 2023

GlotLID: 低资源语言的语种识别

GlotLID-M 是一种具备广泛覆盖、可靠高效、用于辨识低资源语言的 LID 模型，通过分析语料元数据问题、高资源语言泄漏、近似语言辨别困难、处理大语种与方言等方面的挑战，希望将其整合到数据集创建过程中，提高低资源语言与文化的 NLP 技术的质量和可用性。

Oct, 2023

探索多语种广播和机构演讲自动转写的口语语言识别策略

该论文讨论了多语言广播和机构性语音的口语语言识别（SLI）和语音识别，这些是在 SLI 文献中很少讨论的真实应用场景。

Jun, 2024

NusaWrites：为代表性和极度资源匮乏的语言构建高质量语料库

对印尼本土语言进行案例研究的结果表明，原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质，有助于推广自然语言处理技术到较少研究的语言领域。

Sep, 2023