利用时延神经网络进行自动语音语言识别

May, 2022

利用时延神经网络进行自动语音语言识别

Automatic Spoken Language Identification using a Time-Delay Neural Network

Benjamin Kepecs, Homayoon Beigi

TL;DR本研究构建并训练了一种基于自动语音识别技术的语言识别系统，可自动识别阿拉伯语、西班牙语、法语和土耳其语，并通过投票方式进行预测，准确率很高。

Abstract

closed-set spoken language identification is the task of recognizing the language being spoken in a recorded audio clip from a set of known languages. In this study, a language identification system was built and trained to distinguish between Arabic, Spanish, French, and Turkish based

closed-set spoken language identification language recognition acoustic models multilingual language model accuracy

发现论文，激发创造

健壮的开放式口语语种识别和 CU MultiLang 数据集

我们实现了一种基于 MFCC 和音高特征的 TDNN 模型、通过对 softmax 输出进行置信度阈值设置以及使用 LDA 和 pLDA 来学习对新的未知语言进行分类的开放式口语识别系统，该系统在已训练语言上达到了 91.76% 的准确率，并能够动态适应未知语言。

Aug, 2023

使用深度卷积循环神经网络进行语言识别

该论文提出了基于图像领域解决 LID 问题的模型，使用了混合的卷积循环神经网络技术对提供的音频片段的频谱图像进行分析，并在广泛的实验中证明了模型的应用性，能够轻松地扩展到以前未知的语言，同时保持其分类准确性。

Aug, 2017

现代化开放集语言识别

本文探究将现代语音识别方法应用于开放识别模型的可行性以及两种不同识别方法的性能比较。

May, 2022

使用 ConvNets 进行口语语言识别

该研究论文研究了语言识别的问题，使用了基于注意力机制和神经网络的方法，使用频谱图像作为输入以及原始波形作为特征，对六种语言进行了分类，获得了高精度的结果。

Oct, 2019

利用母语信息提高口音识别能力

本研究提出一种基于使用原生语言（西班牙语和印度语）预训练的端到端循环神经网络多任务学习模型，成功实现对英语口音的识别，相比于其他训练方法，此方法在减小语音中字符错误率方面表现更加优异。

Apr, 2019

LanideNN: 基于字符窗口的多语言识别

该研究提出了一种基于双向循环神经网络的文本语言识别方法，能够准确识别文本中涉及的多个语种，并能在不同场景下保持高精度，适用于即开即用的场景。该方法在覆盖 131 种语言的六个数据集上表现稳定并达到了较好的效果。

Jan, 2017

基于机器学习的印度口语识别概述

本文综合评述了印度口语识别领域的研究现状及其面临的独特挑战，探讨了可用的语音语料库、已有的研究成果和未来的研究方向，有助于了解该领域现状和发展趋势。

Nov, 2022

使用自动语音识别的零样本跨语言失语症检测

通过使用语言无关的语言特征，我们尝试利用英语中可用的数据，并在希腊语和法语等低资源语言中实现零样例失语症检测。我们提出了一种端到端流水线，使用预训练的自动语音识别（ASR）模型，共享跨语言语音表示，并进行微调，以实现我们所需的低资源语言。为了进一步提高我们的 ASR 模型的性能，我们还将其与语言模型结合在一起。我们证明，我们基于 ASR 的端到端流水线提供了与使用人工注释转录的先前设置相当的结果。

Apr, 2022

口语语种识别的多模态建模

使用多模态元数据进行语种识别，证明视频标题、描述和地理位置等元数据对语种识别的贡献，并在两个不同的 YouTube 视频数据集上获得了最先进的语种识别结果，并进行了基于模态的贡献度分析。

Sep, 2023

意外学习者：多语言自监督模型中的口语识别

本文通过采用 Conformer 架构，在多语言预训练模型中扩展了以往的自监督方法，我们发现预训练的语音模型最佳地在底层编码语言的区分信息。进一步地，我们证明了从这些层获取的嵌入对于分类未见过的语言和不同的声学环境具有显著的鲁棒性，无需额外的训练。在 VoxLingua107 数据集上微调预训练的 Conformer 模型后，我们实现了类似于语言识别当前最先进系统的结果。此外，我们的模型参数比当前系统少了五倍，并通过 NVIDIA NeMo 工具包开源了该模型。

Nov, 2022