卷积神经网络和语言嵌入用于端到端方言识别
本文利用多模态方法,结合语音和文本特征,提出了自动检测阿尔茨海默病的分类框架,并发现语言特征对于阿尔茨海默病的分类比声学特征更为重要,能够提高分类准确率。
May, 2020
本文提出了一种深迁移学习方法 DIDAN 来解决来自不同语料库的标注训练语音信号和未标注测试语音信号的交叉语料库情感识别问题。DIDAN 通过将源语音谱直接回归到情感标签来拥有情感判别能力,并利用名为隐式分布对齐(IDA)的良好设计的正则化项将其转移为适用于目标语音样本,从而使 DIDAN 可以从语音谱学习到既具有情感鉴别又具有语料库不变性的特征。广泛的交叉语料库 SER 实验表明,DIDAN 可以在处理交叉语料库 SER 任务方面优于许多最新的最先进的方法。
Feb, 2023
该论文提出了基于图像领域解决 LID 问题的模型,使用了混合的卷积循环神经网络技术对提供的音频片段的频谱图像进行分析,并在广泛的实验中证明了模型的应用性,能够轻松地扩展到以前未知的语言,同时保持其分类准确性。
Aug, 2017
本篇论文描述了一个用于阿拉伯语的口语方言识别 (ADI) 模型,该模型在两个基准数据集 ADI-5 和 ADI-17 上始终表现优于先前发表的结果。我们探索了两种不同的架构变体:ResNet 和 ECAPA-TDNN,以及两种类型的声学特征:MFCC 和从预训练的自监督模型 UniSpeech-SAT Large 提取的特征,以及所有四个变体的融合。我们发现,ECAPA-TDNN 网络表现优于 ResNet,而具有 UniSpeech-SAT 特征的模型远远优于具有 MFCC 特征的模型。此外,所有四个变体的融合一致优于单个模型。我们的最佳模型在两个数据集上的准确率分别为 84.7% 和 96.9%,超过了先前报道的结果。
Oct, 2023
探索利用 Whisper 模型的解码器网络通过其生成机制提取语言特征来提高 LID 任务中的分类准确性。通过基于语言嵌入方法和直接优化 LID 输出的两种策略,在 MLS、VoxLingua107 和 CommonVoice 等大规模多语言数据集上进行实验以验证我们的方法的有效性。实验结果表明该方法在 LID 任务的领域内和领域外数据集上均具有良好效果。
Dec, 2023
使用中级 CTC (InterCTC) 训练的混合 CTC/Attention 编码器 - 解码器模型,探索了爱尔兰 (盖尔语) 低资源语音识别 (ASR) 和方言识别 (DID)。通过与目前在 ASR (TDNN-HMM) 和 DID (ECAPA-TDNN) 训练的最佳模型进行对比,首先确定了最佳的 InterCTC 设置,并使用 E-branchformer 编码器训练了一个模型,并比较了两种架构的性能。使用多任务微调方法进行语言模型 (LM) 浅聚合,实验结果显示与基线 ECAPA-TDNN 相比,DID 准确率提高了 10.8%,并且字误率性能接近 TDNN-HMM 模型。这种多任务方法展示了在爱尔兰低资源 ASR 和 DID 中的潜在优势。
May, 2024
本文提出了一种改进的循环神经网络转录模型,通过集成一个帧级语言识别器预测器实现语言识别,以实现流式语音识别,通过流式实现统计汇聚,降低测试时成本,在语音搜索数据集上进行实验,平均命中率达到 96.2%。
Sep, 2022
本文提出了一种新颖的文本依赖模型来利用前置文本,通过注意力机制将音频与前置文本的音素序列对齐,来实现完全的端到端结构,同时提出了三种简单的数据增强方法来缓解模型捕捉错读音素的能力问题,并在 L2-ARCTIC 数据集上表现出 56.08% 的 F-measure 指标,相较 CNN-RNN-CTC 模型有明显提升。
Apr, 2021
我们实现了一种基于 MFCC 和音高特征的 TDNN 模型、通过对 softmax 输出进行置信度阈值设置以及使用 LDA 和 pLDA 来学习对新的未知语言进行分类的开放式口语识别系统,该系统在已训练语言上达到了 91.76% 的准确率,并能够动态适应未知语言。
Aug, 2023