利用基于感知器的序列分类器和通用语音模型检测语音异常

Oct, 2023

利用基于感知器的序列分类器和通用语音模型检测语音异常

Detecting Speech Abnormalities with a Perceiver-based Sequence Classifier that Leverages a Universal Speech Model

Hagen Soltau, Izhak Shafran, Alex Ottenwess, Joseph R. JR Duffy, Rene L. Utianski...

TL;DR我们提出了一种基于感知器的序列分类器，用于检测反映多种神经系统疾病的语音异常。我们将这个分类器与一个训练有素（无监督训练）的通用语音模型（USM）结合起来，该模型在 1200 万小时的多样化音频记录上进行训练。我们的模型将长序列压缩为一组小的与类别相关的潜在表示，并使用分解投影来预测有序输入语音的不同属性。我们的方法的好处是，它允许我们对输入的不同区域进行不同类别的建模，同时具有数据效率。我们在 Mayo Clinic 的手稿语料库上对提出的模型进行了广泛评估。我们的模型的性能优于标准的 Transformer 模型（80.9%）和感知器模型（81.8%），平均准确率达到 83.1%。通过有限的任务特定数据，我们发现预训练是重要的，并且出乎意料的是，预训练与不相关的自动语音识别（ASR）任务也是有益的。中间层的编码提供了声学和语音信息的混合，并且相对于仅使用最终层的编码（83.1% 对比 79.6%），获得了最佳预测结果。这些结果有很大的潜力，并且在进一步的改进后或许可以帮助医生检测语音异常而无需接触高度专业的言语病理学家。

Abstract

We propose a perceiver-based sequence classifier to detect abnormalities in speech reflective of several neurological disorders. We combine this classifier with a →

perceiver-based sequence classifier neurological disorders universal speech model data efficient speech abnormalities

发现论文，激发创造

Google USM：扩展超过 100 种语言的自动语音识别

本论文介绍了通用语音模型（USM），它能够在 100 多种语言中自动识别语音，并使用多语言预训练和随机投影量化等技术来实现跨语言自动语音识别和语音到文本转换这些任务的最先进水平。同时，本文证明使用少量的标记数据集进行训练的 USM 模型在很多语言的领域内和领域外的语音识别任务中表现出了与 Whisper 模型相当或更好的性能。

Mar, 2023

基于注意力机制的语音识别模型

本研究提出了一种基于改进的注意力机制加上位置感知的模型，解决了长输入音频识别中的问题并且有效降低了音素错误率。

Jun, 2015

朝向端到端无监督语音识别

介绍一种改进的 wav2vec-U 2.0 方法，通过更好的结构来消除语音处理的需要，并引入自监督目标来实现更好的准确度，从而在不同语言下提高了非监督性识别结果。

Apr, 2022

混乱语音评估和识别的光谱 - 时间深度特征

本文研究基于 SVD 分解的深度学习算法，用于自动识别语音障碍人士的语音，并且使用该算法提高了基于语音识别的自适应技术在该领域中的性能。

Jan, 2022

走向客观和可解释的语音障碍评估：基于 CNN 和 Transformer 的模型的比较分析

这项研究提出了一种基于自我监督的 Wav2Vec2 模型，用于头颈癌患者的语音分类，以提高准确性和语音特征辨别能力，并通过评估多样化语料库的方式验证了该模型的有效性，为医生提供了可解释的方法来理解病理性语音。

Jun, 2024

使用单一端到端模型的多语言语音识别

本文介绍了一种基于序列到序列的正常语音识别模型，它适用于 9 种不同的印度语言，并通过训练语言特定的字形集合，将这些语言联合起来训练模型以提高其性能。

Nov, 2017

基于大型预训练基础模型的多语言说话人变更检测（USM-SCD）

我们引入了一种多语种说话人变更检测模型（USM-SCD），可以同时检测 96 种语言的说话人转换并进行 ASR。通过一系列消融研究，我们分析了这种多语种说话人变更检测模型的性能，并证明了从大规模通用基础模型进行微调对下游任务的实用性。USM-SCD 模型在包含 96 种语言数据的测试集上能够实现超过 75% 的平均说话人变更检测 F1 得分。在美式英语上，与各种公开和内部测试集相比，USM-SCD 模型能够实现 85.8% 的说话人变更检测 F1 得分，相对于之前的单语言基准模型提高了 21%。我们还表明只需要微调一个四分之一的可训练模型参数就能实现最佳模型性能。USM-SCD 模型在与强大的公开 ASR 基线相比具有最先进的 ASR 质量，适用于同时处理这两个任务并且计算成本几乎可以忽略。

Sep, 2023

UniverSLU：适用于多样化分类和序列生成任务的通用口语理解单网络

通过利用大型语言模型与多任务能力展示有希望的结果，我们构建了一个名为 UniverSLU 的单一多任务学习模型，它在 12 个语音分类和序列生成任务、17 个数据集和 9 种语言上展现出了竞争性的性能并且超过了特定任务模型。同时，我们还初步探索了使用人类可解释的自然短语代替任务限定词作为离散提示，并测试了该模型对新的释意表达的泛化能力。

Oct, 2023

大规模弱监督进行稳健语音识别

研究了训练简单的语音处理系统预测互联网音频大量转录的能力，在 680,000 小时的多语言和多任务监督的基础上，生成的模型具有很好的泛化能力，并且通常与之前的完全监督结果竞争，但在零次传输设置下不需要进行任何微调，与人类相比，模型的准确性和稳健性接近，并且同时发布了模型和推理代码，作为进一步稳健语音处理工作的基础。

Dec, 2022

为处理多个说话人而改编多语言 ASR 模型

该论文提出了一种使用改进的序列化输出训练和轻量级适配器模块来解决在会议对话中经常出现的多说话者自动语音识别（ASR）问题的方法，实验结果表明该方法有效地将 USMs 转换为具有时间戳预测能力的强大的多语言多说话人 ASR 模型

May, 2023