南岛语系语言识别
通过编制一个 50k+ 多语种儿童故事对齐语料库和构建轻量级的逐层模型,我们提出了一种名为 Hierarchical LIMIT 的方法来解决低资源语言的数据瓶颈问题,可用于短文本的语言识别和印度或非洲语言之间的研究。
May, 2023
该研究论文研究了语言识别的问题,使用了基于注意力机制和神经网络的方法,使用频谱图像作为输入以及原始波形作为特征,对六种语言进行了分类,获得了高精度的结果。
Oct, 2019
本文讨论了一个自动语言识别系统的尝试,该系统用于印度 5 种密切相关的印度雅利安语言:阿瓦德语、博杰普尔语、布拉吉语、印地语和马加耳语。使用不同来源的可比较语料库,编译了这些语言的长度不同的语料库。使用这些语料库,开发了一个语言识别系统,目前的准确率为 96.48%。我们还使用这些语料库研究了 5 种语言在词汇水平上的相似性,这是这些语言亲和度首个基于数据的研究。
Mar, 2018
通过收集几种凯尔特语言家族的语料库,本文提出一种无监督特征提取的方法,成功训练了一个分类模型来识别低资源语种,实验结果表明,无监督特征提取可以更有效地解决缺乏标注数据的问题,并提高分类性能。
Mar, 2022
介绍了 Bhinneka Korpus 这一多语种并行语料库,以增强印度尼西亚当地语言资源的获取和利用,并通过 IBM 模型 1 实验表明该语料库在进一步发展低资源语言的高级 NLP 技术和多语种翻译模型方面显示出良好的性能。
Apr, 2024
研究语言识别系统在 MERLIon CCS 挑战中对不同语言特性的子集的表现,考察其对录音和语音单元的性能,并且提出评估指标的局限性和可能导致算法偏差的问题。
May, 2023
GlotLID-M 是一种具备广泛覆盖、可靠高效、用于辨识低资源语言的 LID 模型,通过分析语料元数据问题、高资源语言泄漏、近似语言辨别困难、处理大语种与方言等方面的挑战,希望将其整合到数据集创建过程中,提高低资源语言与文化的 NLP 技术的质量和可用性。
Oct, 2023
对印尼本土语言进行案例研究的结果表明,原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质,有助于推广自然语言处理技术到较少研究的语言领域。
Sep, 2023