LanideNN: 基于字符窗口的多语言识别

ACLJan, 2017

LanideNN: 基于字符窗口的多语言识别

LanideNN: Multilingual Language Identification on Character Window

Tom Kocmi, Ondřej Bojar

TL;DR该研究提出了一种基于双向循环神经网络的文本语言识别方法，能够准确识别文本中涉及的多个语种，并能在不同场景下保持高精度，适用于即开即用的场景。该方法在覆盖 131 种语言的六个数据集上表现稳定并达到了较好的效果。

Abstract

In language identification, a common first step in natural language processing, we want to automatically determine the language of some input text. Monolingual language identification assumes that the given docum

language identification natural language processing multilingual bidirectional recurrent neural networks accuracy

发现论文，激发创造

Apple 双向 LSTM 模型在短字符串语言识别中的复现

本研究实现了 Apple 公司在博客中简短介绍的语言识别架构，发现 bi-LSTM 模型在识别语言方面的表现更优，但在相关语言之间容易混淆。该技术可用于自动拼写检查和对短文本信息进行语种识别。

Feb, 2021

文本中的自动语言识别：一项调查

文章介绍了语言识别的概念及其历史，对现有的特征和方法进行了调查和评估，讨论了评估方法、应用和开放问题，并提出了未来的研究方向。

Apr, 2018

使用双向递归神经网络引导多语言文本分析工具

本文旨在研究对于资源贫乏的语言的快速语言注释工具的发展，我们采用递归神经网络模型实验了多种跨语言注释映射方法。我们提出了一种真正的多语言标记器方法，并通过使用平行语料库证实了其有效性和通用性。

Sep, 2016

使用多通道神经网络和上下文捕捉进行代码混合数据的语言识别

本研究通过实现多通道神经网络结合 CNN 和 LSTM 的方法和 Bi-LSTM-CRF 上下文捕捉模块，成功实现了对混合代码数据的单词级别的语言识别，准确率高达 93.28％和 93.32％。

Aug, 2018

350 + 种语言的分层模型在语言识别、识别错误及翻译中的应用

通过编制一个 50k+ 多语种儿童故事对齐语料库和构建轻量级的逐层模型，我们提出了一种名为 Hierarchical LIMIT 的方法来解决低资源语言的数据瓶颈问题，可用于短文本的语言识别和印度或非洲语言之间的研究。

May, 2023

使用 ConvNets 进行口语语言识别

该研究论文研究了语言识别的问题，使用了基于注意力机制和神经网络的方法，使用频谱图像作为输入以及原始波形作为特征，对六种语言进行了分类，获得了高精度的结果。

Oct, 2019

利用时延神经网络进行自动语音语言识别

本研究构建并训练了一种基于自动语音识别技术的语言识别系统，可自动识别阿拉伯语、西班牙语、法语和土耳其语，并通过投票方式进行预测，准确率很高。

May, 2022

大型语言模型进行母语识别

使用 LLMs（如 GPT-4）进行原生语言识别（NLI）的实验结果表明，GPT 模型在 NLI 分类上表现出色，在零样本设置下取得了 91.7％的性能记录。与以往的完全监督设置不同，LLMs 可以在无需限制于已知类别的情况下执行 NLI，这在实际应用中具有实际意义。此外，LLMs 还能提供选择的理由，根据拼写错误、句法模式和直接翻译的语言模式进行推理。

Dec, 2023

流式端到端多语言语音识别与联合语言识别

本文提出了一种改进的循环神经网络转录模型，通过集成一个帧级语言识别器预测器实现语言识别，以实现流式语音识别，通过流式实现统计汇聚，降低测试时成本，在语音搜索数据集上进行实验，平均命中率达到 96.2%。

Sep, 2022

DocLangID: 改进少样本训练方法以识别历史文档的语言

本文提出了一个迁移学习方法，使用少量手动标注的数据从历史文本领域进行有标注的迁移学习，通过基于距离的少量样本学习来适应新的历史文本数据分布，从而识别未标注历史文本数据中的语言，展示了其在 10 种主要使用拉丁字母的语言历史文本领域中成功的性能。

May, 2023