集中力的耳语:通过编码器层优化增强口吃语音分类
通过使用先进的语音识别模型 Whisper 以及 6 层编码器的不同层冻结策略,本研究提出了一种计算高效的模型配置来更有效地对多发性口吃语音进行自动分类,取得了显著的性能,同时发现最后一个编码器层在辨别口吃性不流畅语音方面的贡献,使模型适用于多种方言和语言。
Jun, 2024
通过使用最新的波形神经网络技术(wav2vec 2.0)并结合多任务学习,对一个英文语料库中的口吃病识别进行了研究,并在语音识别技术和口吃治疗领域有重要应用。
Apr, 2022
使用三种最先进的语音编码器,Wav2vec2、WavLM 和 Whisper,对于 7 个语音理解和生成任务在低资源环境下进行了全面的实验,研究结果表明,Whisper 编码器在执行与内容相关的任务时具有最好的性能和收敛速度。
May, 2023
本研究通过基于 Transformer 框架的编码器 - 解码器模型提出了一种联合解决语音识别和流式识别中断相关的自然语言分析难题的方法,将其与传统的流水线工艺相比较,表现出更优异的准确性和实时性。
Nov, 2022
该研究提出了一种全自动的方法来识别语音记录中的语音异常,以帮助评估语音障碍。结合连续时间分类(CTC)和基于编码器 - 解码器的自动语音识别模型,生成丰富的声学和干净的转录本。然后,应用几种自然语言处理方法从这些转录本中提取特征,以产生健康语音的原型。利用这些原型的基本距离度量作为标准机器学习分类器的输入特征,可以实现与人类水平相当的准确性来区分患有失语症的人与健康对照组的记录。此外,可以以 90% 的准确性区分最常见的失语症类型。该流程可直接应用于其他疾病和语言,并显示出从语音诊断标志提取的强大前景。
Aug, 2023
本研究通过使用预先训练的深度学习模型提取的语音嵌入,探索了使用 ECAPA-TDNN 和 Wav2Vec2.0 模型进行口吃检测任务的音频表示。相对于仅在有限 SEP-28k 数据集上训练的标准口吃检测系统,本研究在多个传统分类器上获得了 12.08%、28.71%、37.9%的相对改进并进一步证明结合两个嵌入和连接多个层的 Wav2Vec2.0 可进一步提高其性能。
Jun, 2023
本文提出了一种基于声学特征而不是语言模型的口吃检测和分类的模型,采用了深度残差网络和双向长短时记忆层,以识别几种形式的口吃,平均漏诊率仅为 10.03%,比现有技术先进了近 27%。
Oct, 2019
在这项研究中,我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题,并证明这是与讲话者特征及模型相关偏差有关。针对这个问题,我们提出了 DistilWhisper 方法,通过轻量级的模型微调和知识蒸馏策略,在保留了多任务和多语言预训练的鲁棒性的同时,有效地提升了目标语言的 ASR 性能。
May, 2024
本文提出了一种基于 Transformer 结构的语音词项检测方法,采用两个 BERT-like 编码器并进行了适当的修改,包括卷积和上采样层、注意力掩码、共享参数等,将假设和搜索术语投影到共享嵌入空间中,并使用校准点积计算假设的命中得分。在实验中,使用了 Wav2Vec 2.0 语音识别器,并在基于 USC Shoah 基金会视觉历史档案(MALACH)的英语和捷克 STD 数据集上,提出的系统优于基于深度 LSTM 的基线方法。
Nov, 2022
通过引入一种新的解缠损失函数,本研究专注于改进端到端自动语音识别(ASR)的声学编码器,以解决代码切换现象带来的挑战,并通过实验验证了该方法的优越性。
Feb, 2024