集中力的耳语：通过编码器层优化增强口吃语音分类

Nov, 2023

集中力的耳语：通过编码器层优化增强口吃语音分类

Whisper in Focus: Enhancing Stuttered Speech Classification with Encoder Layer Optimization

Huma Ameer, Seemab Latif, Rabia Latif, Sana Mukhtar

TL;DR近年来，在语音处理领域的进展已经引发出具有巨大潜力的尖端深度学习算法，而自动识别口吃症言语是这些研究者采用深度学习技术所致力解决的应用之一。本研究通过旨在聚焦于高效解决方案的重要贡献，解开了 Whisper 在口吃症言语类型分类上的能力，并对较深层编码器的重要性进行了探究。

Abstract

In recent years, advancements in the field of speech processing have led to cutting-edge deep learning algorithms with immense potential for real-world applications. The automated identification of →

speech processing deep learning stuttered speech whisper disfluency types

发现论文，激发创造

优化多重口吃语音分类：利用 Whisper 的编码器实现自动评估中高效参数减少

通过使用先进的语音识别模型 Whisper 以及 6 层编码器的不同层冻结策略，本研究提出了一种计算高效的模型配置来更有效地对多发性口吃语音进行自动分类，取得了显著的性能，同时发现最后一个编码器层在辨别口吃性不流畅语音方面的贡献，使模型适用于多种方言和语言。

Jun, 2024

利用 wav2vec 2.0 检测口吃治疗中的语音障碍

通过使用最新的波形神经网络技术（wav2vec 2.0）并结合多任务学习，对一个英文语料库中的口吃病识别进行了研究，并在语音识别技术和口吃治疗领域有重要应用。

Apr, 2022

在低资源条件下调查预训练音频编码器

使用三种最先进的语音编码器，Wav2vec2、WavLM 和 Whisper，对于 7 个语音理解和生成任务在低资源环境下进行了全面的实验，研究结果表明，Whisper 编码器在执行与内容相关的任务时具有最好的性能和收敛速度。

May, 2023

流式联合语音识别和语调异常检测

本研究通过基于 Transformer 框架的编码器 - 解码器模型提出了一种联合解决语音识别和流式识别中断相关的自然语言分析难题的方法，将其与传统的流水线工艺相比较，表现出更优异的准确性和实时性。

Nov, 2022

细致的耳语：利用自动语音识别的进展进行稳健和可解释的失语症亚型分类

该研究提出了一种全自动的方法来识别语音记录中的语音异常，以帮助评估语音障碍。结合连续时间分类（CTC）和基于编码器 - 解码器的自动语音识别模型，生成丰富的声学和干净的转录本。然后，应用几种自然语言处理方法从这些转录本中提取特征，以产生健康语音的原型。利用这些原型的基本距离度量作为标准机器学习分类器的输入特征，可以实现与人类水平相当的准确性来区分患有失语症的人与健康对照组的记录。此外，可以以 90% 的准确性区分最常见的失语症类型。该流程可直接应用于其他疾病和语言，并显示出从语音诊断标志提取的强大前景。

Aug, 2023

使用说话人表示和自监督上下文嵌入进行口吃检测

本研究通过使用预先训练的深度学习模型提取的语音嵌入，探索了使用 ECAPA-TDNN 和 Wav2Vec2.0 模型进行口吃检测任务的音频表示。相对于仅在有限 SEP-28k 数据集上训练的标准口吃检测系统，本研究在多个传统分类器上获得了 12.08％、28.71％、37.9％的相对改进并进一步证明结合两个嵌入和连接多个层的 Wav2Vec2.0 可进一步提高其性能。

Jun, 2023

使用深度残差网络和双向长短时记忆检测多种语音不流畅

本文提出了一种基于声学特征而不是语言模型的口吃检测和分类的模型，采用了深度残差网络和双向长短时记忆层，以识别几种形式的口吃，平均漏诊率仅为 10.03％，比现有技术先进了近 27%。

Oct, 2019

多任务多语言语音模型的高效压缩

在这项研究中，我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题，并证明这是与讲话者特征及模型相关偏差有关。针对这个问题，我们提出了 DistilWhisper 方法，通过轻量级的模型微调和知识蒸馏策略，在保留了多任务和多语言预训练的鲁棒性的同时，有效地提升了目标语言的 ASR 性能。

May, 2024

基于 Transformer 编码器 - 编码器架构的口语检索

本文提出了一种基于 Transformer 结构的语音词项检测方法，采用两个 BERT-like 编码器并进行了适当的修改，包括卷积和上采样层、注意力掩码、共享参数等，将假设和搜索术语投影到共享嵌入空间中，并使用校准点积计算假设的命中得分。在实验中，使用了 Wav2Vec 2.0 语音识别器，并在基于 USC Shoah 基金会视觉历史档案（MALACH）的英语和捷克 STD 数据集上，提出的系统优于基于深度 LSTM 的基线方法。

Nov, 2022

利用编码解耦的有效混合专家方法进行代码切换语音识别

通过引入一种新的解缠损失函数，本研究专注于改进端到端自动语音识别（ASR）的声学编码器，以解决代码切换现象带来的挑战，并通过实验验证了该方法的优越性。

Feb, 2024