文本语言识别
该研究提出了一种基于单语数据训练的语言识别模型,其在 201 种语言上的宏平均 F1 得分为 0.93,而误报率为 0.033,将先前工作的表现远远超过。我们对数据集进行了精心筛选,通过手动审核每个来源和每种语言的样本来确保其可靠性。模型和数据集都向研究界公开,并详细分析了模型的性能。
May, 2023
本研究重点讨论了大型文本语料库在自然语言处理任务中的重要性以及在多语言语境下收集这些数据集所需的核心技术 —— 自动语言识别,该文介绍了使用基于词表的精度可调过滤器和基于 Transformer 的半监督语言识别模型来提高数据集质量的方法,为接下来创建 1,000 种语言的网络文本语料库铺平了道路。
Oct, 2020
我们提出了一种基于 BERT 的语言识别系统,通过提取从前端语音识别器导出的语音学后向图(PPG)作为输入,可以提高较短语音段的语言识别表现,该模型可以提高长语音段识别的基准准确率约 6.5%,提高短语音段识别的基准准确率约 19.9%,表明 BERT-LID 在语言识别方面是有效的。
Mar, 2022
提出一种学习自图像和描述的模型(LIDE),通过与基准模型的对比实验证明了机器自动生成的描述可以作为模型预测的解释,高质量的用户生成描述可以进一步提高模型的性能,并通过比较特征空间中的图像表示和文本表示来研究语言描述为什么能提高 few-shot 图像分类的性能。
Jul, 2022
该研究是一项关于利用语言信息作为软生物特征,增强基于唇部运动的视觉辅助识别系统性能的初步研究,特别是通过积分打分策略来达到显著的提高。实验使用了包括 8 种不同语言的 laBial Articulation for the proBlem of the spokEn Language rEcognition (BABELE) 数据集,评估了深度学习和机器学习方法。
Feb, 2023
GlotLID-M 是一种具备广泛覆盖、可靠高效、用于辨识低资源语言的 LID 模型,通过分析语料元数据问题、高资源语言泄漏、近似语言辨别困难、处理大语种与方言等方面的挑战,希望将其整合到数据集创建过程中,提高低资源语言与文化的 NLP 技术的质量和可用性。
Oct, 2023
本文提出了一个迁移学习方法,使用少量手动标注的数据从历史文本领域进行有标注的迁移学习,通过基于距离的少量样本学习来适应新的历史文本数据分布,从而识别未标注历史文本数据中的语言,展示了其在 10 种主要使用拉丁字母的语言历史文本领域中成功的性能。
May, 2023
该研究通过深度学习和嵌入可视化对多语言文本分类方法进行比较研究,特别关注 FastText 和 Sentence Transformer 模型,并探索了维度对聚类的影响。研究结果显示,FastText 在二维可视化中显示出更清晰的聚类效果,取得了显著的准确性、精确率、召回率和 F1 分数,优于 Sentence Transformer 模型。该研究强调了这些技术在多语言文本分类中的有效性,并强调了使用大型多语言语料库进行嵌入训练的重要性。它为未来的研究奠定了基础,并辅助开发语言检测和分类系统。此外,研究还对多层感知机、LSTM 和卷积模型进行了比较。
Dec, 2023