基于大型预训练基础模型的多语言说话人变更检测（USM-SCD）

Sep, 2023

基于大型预训练基础模型的多语言说话人变更检测（USM-SCD）

USM-SCD: Multilingual Speaker Change Detection Based on Large Pretrained Foundation Models

Guanlong Zhao, Yongqiang Wang, Jason Pelecanos, Yu Zhang, Hank Liao...

TL;DR我们引入了一种多语种说话人变更检测模型（USM-SCD），可以同时检测 96 种语言的说话人转换并进行 ASR。通过一系列消融研究，我们分析了这种多语种说话人变更检测模型的性能，并证明了从大规模通用基础模型进行微调对下游任务的实用性。USM-SCD 模型在包含 96 种语言数据的测试集上能够实现超过 75% 的平均说话人变更检测 F1 得分。在美式英语上，与各种公开和内部测试集相比，USM-SCD 模型能够实现 85.8% 的说话人变更检测 F1 得分，相对于之前的单语言基准模型提高了 21%。我们还表明只需要微调一个四分之一的可训练模型参数就能实现最佳模型性能。USM-SCD 模型在与强大的公开 ASR 基线相比具有最先进的 ASR 质量，适用于同时处理这两个任务并且计算成本几乎可以忽略。

Abstract

We introduce a multilingual speaker change detection model (USM-SCD) that can simultaneously detect speaker turns and perform asr for 96 languages. This model is adapted from a speech foundation model trained on

multilingual speaker change detection asr ablation studies fine-tuning state-of-the-art asr quality

发现论文，激发创造

Google USM：扩展超过 100 种语言的自动语音识别

本论文介绍了通用语音模型（USM），它能够在 100 多种语言中自动识别语音，并使用多语言预训练和随机投影量化等技术来实现跨语言自动语音识别和语音到文本转换这些任务的最先进水平。同时，本文证明使用少量的标记数据集进行训练的 USM 模型在很多语言的领域内和领域外的语音识别任务中表现出了与 Whisper 模型相当或更好的性能。

Mar, 2023

编码器 - 解码器多模态发言人变化检测

本研究提出了一种基于多模态模型的演讲者变换检测方法，它不仅利用音频，还使用文本信息进行检测，并且在模态融合和编码器 - 解码器体系结构等方面进行了改进，实验结果表明该方法在准确率上取得了最好的效果。

Jun, 2023

为处理多个说话人而改编多语言 ASR 模型

该论文提出了一种使用改进的序列化输出训练和轻量级适配器模块来解决在会议对话中经常出现的多说话者自动语音识别（ASR）问题的方法，实验结果表明该方法有效地将 USMs 转换为具有时间戳预测能力的强大的多语言多说话人 ASR 模型

May, 2023

利用基于感知器的序列分类器和通用语音模型检测语音异常

我们提出了一种基于感知器的序列分类器，用于检测反映多种神经系统疾病的语音异常。我们将这个分类器与一个训练有素（无监督训练）的通用语音模型（USM）结合起来，该模型在 1200 万小时的多样化音频记录上进行训练。我们的模型将长序列压缩为一组小的与类别相关的潜在表示，并使用分解投影来预测有序输入语音的不同属性。我们的方法的好处是，它允许我们对输入的不同区域进行不同类别的建模，同时具有数据效率。我们在 Mayo Clinic 的手稿语料库上对提出的模型进行了广泛评估。我们的模型的性能优于标准的 Transformer 模型（80.9%）和感知器模型（81.8%），平均准确率达到 83.1%。通过有限的任务特定数据，我们发现预训练是重要的，并且出乎意料的是，预训练与不相关的自动语音识别（ASR）任务也是有益的。中间层的编码提供了声学和语音信息的混合，并且相对于仅使用最终层的编码（83.1% 对比 79.6%），获得了最佳预测结果。这些结果有很大的潜力，并且在进一步的改进后或许可以帮助医生检测语音异常而无需接触高度专业的言语病理学家。

Oct, 2023

基于文本的说话人变换检测的具有静态句级注意力的分层 RNN

本研究提出了一个基于分层循环神经网络和静态句子级注意力的模型，解决了对话模型中的文本语料的说话人变化检测问题，并在实验中证明了该模型明显优于其他模型。

Mar, 2017

口语对话建模的统一语音文本预训练

提出了一个名为统一口语对话模型（USDM）的广泛的语音文本模型框架，用于生成与给定输入语音相关的有机韵律特征的连贯口语回应，而不依赖于自动语音识别（ASR）或文本到语音（TTS）解决方案。该方法利用底层大型语言模型所展示的推理链能力，采用多步骤的语音文本推理方案。经过自动和人工评估表明，该方法在生成自然流畅的口语回应方面非常有效，优于之前的和级联的基线方法。详细的比较研究显示，尽管级联方法在单独的组件上更强大，但联合的语音文本建模改善了对识别错误和语音质量的鲁棒性。

Feb, 2024

大规模多语言自动语音识别：50 种语言，1 个模型，10 亿参数

本文探讨了利用单一声学模型进行多种语言训练，以提高低资源语言的自动语音识别性能，并简化支持多种语言的 ASR 系统的部署。作者在 51 种语言上进行广泛的基准测试和比较，表明与单语言训练相比，多语言训练的 ASR 模型可以提高识别性能，特别是对于低资源语言。与单语言基线相比，联合模型、具有语言输入的联合模型和多头模型的平均 WER 相对减少 20.9％、23％和 28.8％。据我们所知，这是第一次研究超过 50 种语言和超过 16,000 小时声音跨其的多语言 ASR 的大规模研究。

Jul, 2020

SLM：填补语音与文本基础模型之间的差距

我们提出了一种联合语音与语言模型（SLM），它是一种多任务、多语种、双模态的模型，充分利用了预训练的语音和语言基础模型。SLM 通过将预训练的基础模型冻结，最大限度地保留它们的能力，并只训练一个只包含 1％（156M）基础模型参数的简单适配器，从而在传统任务（如语音识别和语音翻译）上取得了强大的性能，同时还具备了零 - shot 指导的新颖能力，能够完成包括上下文偏置语音识别、对话生成、语音延续和问答等多样化任务。我们的方法表明，预训练的语音和语言模型之间的表征差距可能比人们预期的要小，并可以通过简单的适应机制来弥合。因此，SLM 不仅训练高效，而且继承了不同模态基础模型已经具备的强大能力。

Sep, 2023

70 种语言的大规模多语音识别：分词、架构、泛化能力

本文研究了 70 种语言的大规模多语种 ASR 模型，并通过优化多重嵌入和输出模型的标记化策略，相对于单一语种模型，实现了 13.9%-15.6% 的平均 WER 改进，并展示了其泛化性和零样本学习能力在 Multilingual Librispeech 上高达 9.5% 的 WER 表现。

Nov, 2022

UniverSLU：适用于多样化分类和序列生成任务的通用口语理解单网络

通过利用大型语言模型与多任务能力展示有希望的结果，我们构建了一个名为 UniverSLU 的单一多任务学习模型，它在 12 个语音分类和序列生成任务、17 个数据集和 9 种语言上展现出了竞争性的性能并且超过了特定任务模型。同时，我们还初步探索了使用人类可解释的自然短语代替任务限定词作为离散提示，并测试了该模型对新的释意表达的泛化能力。

Oct, 2023