多语言 CapsNet 模型的细粒度语言识别

Jul, 2020

多语言 CapsNet 模型的细粒度语言识别

Fine-grained Language Identification with Multilingual CapsNet Model

Mudit Verma, Arun Balaji Buduru

TL;DR本文提出了一种实时语音检测方法，采用 Capsule Networks 架构，能以高达 91.8％的准确率检测出 5 秒音频片段中的口语语言，数据要求和预处理工作较少。

Abstract

Due to a drastic improvement in the quality of internet services worldwide, there is an explosion of multilingual content generation and consumption. This is especially prevalent in countries with large multilingual audience, who are increasingly consuming media outside their linguisti

multilingual content real-time content analysis language detection capsule networks audio snippets

发现论文，激发创造

使用 ConvNets 进行口语语言识别

该研究论文研究了语言识别的问题，使用了基于注意力机制和神经网络的方法，使用频谱图像作为输入以及原始波形作为特征，对六种语言进行了分类，获得了高精度的结果。

Oct, 2019

使用深度卷积循环神经网络进行语言识别

该论文提出了基于图像领域解决 LID 问题的模型，使用了混合的卷积循环神经网络技术对提供的音频片段的频谱图像进行分析，并在广泛的实验中证明了模型的应用性，能够轻松地扩展到以前未知的语言，同时保持其分类准确性。

Aug, 2017

一种快速、紧凑、准确的混合语言文本语种识别模型

提出了一种可以快速且精确地标识码混合多语言文本中每个单词的语言的前馈网络的方法，并在 100 种语言和 100 种语言对中展示了其优越性能。

Oct, 2018

口语语言识别的生成语言表示

探索利用 Whisper 模型的解码器网络通过其生成机制提取语言特征来提高 LID 任务中的分类准确性。通过基于语言嵌入方法和直接优化 LID 输出的两种策略，在 MLS、VoxLingua107 和 CommonVoice 等大规模多语言数据集上进行实验以验证我们的方法的有效性。实验结果表明该方法在 LID 任务的领域内和领域外数据集上均具有良好效果。

Dec, 2023

使用多通道神经网络和上下文捕捉进行代码混合数据的语言识别

本研究通过实现多通道神经网络结合 CNN 和 LSTM 的方法和 Bi-LSTM-CRF 上下文捕捉模块，成功实现了对混合代码数据的单词级别的语言识别，准确率高达 93.28％和 93.32％。

Aug, 2018

利用时延神经网络进行自动语音语言识别

本研究构建并训练了一种基于自动语音识别技术的语言识别系统，可自动识别阿拉伯语、西班牙语、法语和土耳其语，并通过投票方式进行预测，准确率很高。

May, 2022

基于深度学习的音频信号频谱图的多类语言识别

本文介绍了一种使用卷积神经网络来进行语言识别的技术，即语音频谱的语言识别（LIFAS），它利用由音频信号产生的频谱图作为输入，对语言进行分类识别，达到了 97 删格的二进制语言分类精度和 89% 的六种语言的多类分类精度。

May, 2019

多粒度时空建模用于唇读

本文提出了一种基于多级时空建模法的新型唇读模型，采用细粒度和中等粒度特征提取方法，结合时域注意理解整个输入序列，该模型在挑战的单词级唇读基准测试中表现出良好的效果。

Aug, 2019

流式端到端多语言语音识别与联合语言识别

本文提出了一种改进的循环神经网络转录模型，通过集成一个帧级语言识别器预测器实现语言识别，以实现流式语音识别，通过流式实现统计汇聚，降低测试时成本，在语音搜索数据集上进行实验，平均命中率达到 96.2%。

Sep, 2022

BERT-LID: 利用 BERT 提升口语语言识别

我们提出了一种基于 BERT 的语言识别系统，通过提取从前端语音识别器导出的语音学后向图（PPG）作为输入，可以提高较短语音段的语言识别表现，该模型可以提高长语音段识别的基准准确率约 6.5％，提高短语音段识别的基准准确率约 19.9％，表明 BERT-LID 在语言识别方面是有效的。

Mar, 2022