使用 ConvNets 进行口语语言识别
该论文提出了基于图像领域解决 LID 问题的模型,使用了混合的卷积循环神经网络技术对提供的音频片段的频谱图像进行分析,并在广泛的实验中证明了模型的应用性,能够轻松地扩展到以前未知的语言,同时保持其分类准确性。
Aug, 2017
本文介绍了一种使用卷积神经网络来进行语言识别的技术,即语音频谱的语言识别(LIFAS),它利用由音频信号产生的频谱图作为输入,对语言进行分类识别,达到了 97 删格的二进制语言分类精度和 89% 的六种语言的多类分类精度。
May, 2019
该研究是一项关于利用语言信息作为软生物特征,增强基于唇部运动的视觉辅助识别系统性能的初步研究,特别是通过积分打分策略来达到显著的提高。实验使用了包括 8 种不同语言的 laBial Articulation for the proBlem of the spokEn Language rEcognition (BABELE) 数据集,评估了深度学习和机器学习方法。
Feb, 2023
本文提出了一种实时语音检测方法,采用 Capsule Networks 架构,能以高达 91.8%的准确率检测出 5 秒音频片段中的口语语言,数据要求和预处理工作较少。
Jul, 2020
本文通过采用 Conformer 架构,在多语言预训练模型中扩展了以往的自监督方法,我们发现预训练的语音模型最佳地在底层编码语言的区分信息。进一步地,我们证明了从这些层获取的嵌入对于分类未见过的语言和不同的声学环境具有显著的鲁棒性,无需额外的训练。在 VoxLingua107 数据集上微调预训练的 Conformer 模型后,我们实现了类似于语言识别当前最先进系统的结果。此外,我们的模型参数比当前系统少了五倍,并通过 NVIDIA NeMo 工具包开源了该模型。
Nov, 2022
本文主要讲述了如何利用卷积神经网络构建高效的口语语种识别模型,并在训练时采用多标签的方式来应对非目标语种的识别,实验结果表明,该模型相比当前最先进的方法在速度上有数量级的提升,并且在多标签分类任务中更加稳健。
Jun, 2023
使用多模态元数据进行语种识别,证明视频标题、描述和地理位置等元数据对语种识别的贡献,并在两个不同的 YouTube 视频数据集上获得了最先进的语种识别结果,并进行了基于模态的贡献度分析。
Sep, 2023
本研究针对印度语境下多种语言混杂的情况,对在语音处理中较为基础的语种识别系统 LID 进行优化,提出基于语种掩蔽和光谱增强的方法,在微软研究团队提出的挑战任务中相对基线系统进行了 3-5% 的 LID 准确度改进。
Oct, 2020