使用 ConvNets 进行口语语言识别

Oct, 2019

Spoken Language Identification using ConvNets

Sarthak, Shikhar Shukla, Govind Mittal

TL;DR该研究论文研究了语言识别的问题，使用了基于注意力机制和神经网络的方法，使用频谱图像作为输入以及原始波形作为特征，对六种语言进行了分类，获得了高精度的结果。

Abstract

language identification (LI) is an important first step in several speech processing systems. With a growing number of voice-based assistants, speech LI has emerged as a widely researched field. To approach the problem of identifying languages, we can either adopt an implicit approach

language identification speech processing neural network attention model log-mel spectrogram

发现论文，激发创造

使用深度卷积循环神经网络进行语言识别

该论文提出了基于图像领域解决 LID 问题的模型，使用了混合的卷积循环神经网络技术对提供的音频片段的频谱图像进行分析，并在广泛的实验中证明了模型的应用性，能够轻松地扩展到以前未知的语言，同时保持其分类准确性。

Aug, 2017

基于深度学习的音频信号频谱图的多类语言识别

本文介绍了一种使用卷积神经网络来进行语言识别的技术，即语音频谱的语言识别（LIFAS），它利用由音频信号产生的频谱图作为输入，对语言进行分类识别，达到了 97 删格的二进制语言分类精度和 89% 的六种语言的多类分类精度。

May, 2019

基于语言识别的唇部生物特征视觉系统改进

该研究是一项关于利用语言信息作为软生物特征，增强基于唇部运动的视觉辅助识别系统性能的初步研究，特别是通过积分打分策略来达到显著的提高。实验使用了包括 8 种不同语言的 laBial Articulation for the proBlem of the spokEn Language rEcognition (BABELE) 数据集，评估了深度学习和机器学习方法。

Feb, 2023

多语言 CapsNet 模型的细粒度语言识别

本文提出了一种实时语音检测方法，采用 Capsule Networks 架构，能以高达 91.8％的准确率检测出 5 秒音频片段中的口语语言，数据要求和预处理工作较少。

Jul, 2020

意外学习者：多语言自监督模型中的口语识别

本文通过采用 Conformer 架构，在多语言预训练模型中扩展了以往的自监督方法，我们发现预训练的语音模型最佳地在底层编码语言的区分信息。进一步地，我们证明了从这些层获取的嵌入对于分类未见过的语言和不同的声学环境具有显著的鲁棒性，无需额外的训练。在 VoxLingua107 数据集上微调预训练的 Conformer 模型后，我们实现了类似于语言识别当前最先进系统的结果。此外，我们的模型参数比当前系统少了五倍，并通过 NVIDIA NeMo 工具包开源了该模型。

Nov, 2022

通过多标签分类实现有效的口语语言识别

本文主要讲述了如何利用卷积神经网络构建高效的口语语种识别模型，并在训练时采用多标签的方式来应对非目标语种的识别，实验结果表明，该模型相比当前最先进的方法在速度上有数量级的提升，并且在多标签分类任务中更加稳健。

Jun, 2023

基于机器学习的印度口语识别概述

本文综合评述了印度口语识别领域的研究现状及其面临的独特挑战，探讨了可用的语音语料库、已有的研究成果和未来的研究方向，有助于了解该领域现状和发展趋势。

Nov, 2022

探索多语种广播和机构演讲自动转写的口语语言识别策略

该论文讨论了多语言广播和机构性语音的口语语言识别（SLI）和语音识别，这些是在 SLI 文献中很少讨论的真实应用场景。

Jun, 2024

口语语种识别的多模态建模

使用多模态元数据进行语种识别，证明视频标题、描述和地理位置等元数据对语种识别的贡献，并在两个不同的 YouTube 视频数据集上获得了最先进的语种识别结果，并进行了基于模态的贡献度分析。

Sep, 2023

利用频谱增强技术进行混合语言口语识别

本研究针对印度语境下多种语言混杂的情况，对在语音处理中较为基础的语种识别系统 LID 进行优化，提出基于语种掩蔽和光谱增强的方法，在微软研究团队提出的挑战任务中相对基线系统进行了 3-5% 的 LID 准确度改进。

Oct, 2020