文本语言识别

Jan, 2017

LIDE: Language Identification from Text Documents

Priyank Mathur, Arkajyoti Misra, Emrah Budur

TL;DR利用微博和深度学习技术，研发了一种可靠的语言识别引擎，在 Discriminating between Similar Languages (DSL) Shared Task 2015 数据集上达到了 95.12% 的准确率。

Abstract

The increase in the use of microblogging came along with the rapid growth on short linguistic data. On the other hand deep learning is considered to be the new frontier to extract meaningful information out of la

microblogging deep learning language identification automated accuracy

发现论文，激发创造

语言识别的开放数据集和模型

该研究提出了一种基于单语数据训练的语言识别模型，其在 201 种语言上的宏平均 F1 得分为 0.93，而误报率为 0.033，将先前工作的表现远远超过。我们对数据集进行了精心筛选，通过手动审核每个来源和每种语言的样本来确保其可靠性。模型和数据集都向研究界公开，并详细分析了模型的性能。

May, 2023

野外语言识别：通往千语言网络文本语料库的挑战

本研究重点讨论了大型文本语料库在自然语言处理任务中的重要性以及在多语言语境下收集这些数据集所需的核心技术 —— 自动语言识别，该文介绍了使用基于词表的精度可调过滤器和基于 Transformer 的半监督语言识别模型来提高数据集质量的方法，为接下来创建 1,000 种语言的网络文本语料库铺平了道路。

Oct, 2020

BERT-LID: 利用 BERT 提升口语语言识别

我们提出了一种基于 BERT 的语言识别系统，通过提取从前端语音识别器导出的语音学后向图（PPG）作为输入，可以提高较短语音段的语言识别表现，该模型可以提高长语音段识别的基准准确率约 6.5％，提高短语音段识别的基准准确率约 19.9％，表明 BERT-LID 在语言识别方面是有效的。

Mar, 2022

文本中的自动语言识别：一项调查

文章介绍了语言识别的概念及其历史，对现有的特征和方法进行了调查和评估，讨论了评估方法、应用和开放问题，并提出了未来的研究方向。

Apr, 2018

利用机器和用户生成的自然语言描述提升少样本图像分类

提出一种学习自图像和描述的模型（LIDE），通过与基准模型的对比实验证明了机器自动生成的描述可以作为模型预测的解释，高质量的用户生成描述可以进一步提高模型的性能，并通过比较特征空间中的图像表示和文本表示来研究语言描述为什么能提高 few-shot 图像分类的性能。

Jul, 2022

基于语言识别的唇部生物特征视觉系统改进

该研究是一项关于利用语言信息作为软生物特征，增强基于唇部运动的视觉辅助识别系统性能的初步研究，特别是通过积分打分策略来达到显著的提高。实验使用了包括 8 种不同语言的 laBial Articulation for the proBlem of the spokEn Language rEcognition (BABELE) 数据集，评估了深度学习和机器学习方法。

Feb, 2023

基于深度卷积神经网络的基于字节的语言识别

使用深度残差网络和字节表示，仅在已发布的数据集上进行训练，可以对相似语言进行有效区分，获得了高精度的分类结果。

Sep, 2016

GlotLID: 低资源语言的语种识别

GlotLID-M 是一种具备广泛覆盖、可靠高效、用于辨识低资源语言的 LID 模型，通过分析语料元数据问题、高资源语言泄漏、近似语言辨别困难、处理大语种与方言等方面的挑战，希望将其整合到数据集创建过程中，提高低资源语言与文化的 NLP 技术的质量和可用性。

Oct, 2023

DocLangID: 改进少样本训练方法以识别历史文档的语言

本文提出了一个迁移学习方法，使用少量手动标注的数据从历史文本领域进行有标注的迁移学习，通过基于距离的少量样本学习来适应新的历史文本数据分布，从而识别未标注历史文本数据中的语言，展示了其在 10 种主要使用拉丁字母的语言历史文本领域中成功的性能。

May, 2023

跨语言文本分类与识别的深度学习和嵌入可视化的比较分析

该研究通过深度学习和嵌入可视化对多语言文本分类方法进行比较研究，特别关注 FastText 和 Sentence Transformer 模型，并探索了维度对聚类的影响。研究结果显示，FastText 在二维可视化中显示出更清晰的聚类效果，取得了显著的准确性、精确率、召回率和 F1 分数，优于 Sentence Transformer 模型。该研究强调了这些技术在多语言文本分类中的有效性，并强调了使用大型多语言语料库进行嵌入训练的重要性。它为未来的研究奠定了基础，并辅助开发语言检测和分类系统。此外，研究还对多层感知机、LSTM 和卷积模型进行了比较。

Dec, 2023