为处理多个说话人而改编多语言 ASR 模型

May, 2023

为处理多个说话人而改编多语言 ASR 模型

Adapting Multi-Lingual ASR Models for Handling Multiple Talkers

Chenda Li, Yao Qian, Zhuo Chen, Naoyuki Kanda, Dongmei Wang...

TL;DR该论文提出了一种使用改进的序列化输出训练和轻量级适配器模块来解决在会议对话中经常出现的多说话者自动语音识别（ASR）问题的方法，实验结果表明该方法有效地将 USMs 转换为具有时间戳预测能力的强大的多语言多说话人 ASR 模型

Abstract

State-of-the-art large-scale universal speech models (USMs) show a decent automatic speech recognition (ASR) performance across multiple domains and languages. However, it remains a challenge for these models to

universal speech models automatic speech recognition multi-talker asr overlapped speech timestamp prediction

发现论文，激发创造

Google USM：扩展超过 100 种语言的自动语音识别

本论文介绍了通用语音模型（USM），它能够在 100 多种语言中自动识别语音，并使用多语言预训练和随机投影量化等技术来实现跨语言自动语音识别和语音到文本转换这些任务的最先进水平。同时，本文证明使用少量的标记数据集进行训练的 USM 模型在很多语言的领域内和领域外的语音识别任务中表现出了与 Whisper 模型相当或更好的性能。

Mar, 2023

通过模拟真实的语音重叠，提高多说话人语音识别

本文提出了一种改进的模拟多说者重叠讲话的技术，该技术使用离散标记的序列来表示任意模式的语音重叠，从而使模型能够从实际对话中学习语音重叠模式，并在多个数据集上提高了单词错误率。

Oct, 2022

UniverSLU：适用于多样化分类和序列生成任务的通用口语理解单网络

通过利用大型语言模型与多任务能力展示有希望的结果，我们构建了一个名为 UniverSLU 的单一多任务学习模型，它在 12 个语音分类和序列生成任务、17 个数据集和 9 种语言上展现出了竞争性的性能并且超过了特定任务模型。同时，我们还初步探索了使用人类可解释的自然短语代替任务限定词作为离散提示，并测试了该模型对新的释意表达的泛化能力。

Oct, 2023

70 种语言的大规模多语音识别：分词、架构、泛化能力

本文研究了 70 种语言的大规模多语种 ASR 模型，并通过优化多重嵌入和输出模型的标记化策略，相对于单一语种模型，实现了 13.9%-15.6% 的平均 WER 改进，并展示了其泛化性和零样本学习能力在 Multilingual Librispeech 上高达 9.5% 的 WER 表现。

Nov, 2022

面向语音识别的统一说话人适应方法

本文提出了一种基于特征适应和模型适应的统一说话人自适应方法，其中采用一种说话人感知的持久性记忆模型进行特征适应，并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明，相对于基线方法，在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降，并且该方法具有良好的低资源适应性能。

Oct, 2021

多语言和全非自回归 ASR 与大型语言模型融合：一项全面研究

在大模型时代，解码的自回归特性通常导致延迟成为一个重要瓶颈。我们提出了一个非自回归 LM 融合 ASR 系统，有效地利用了加速器硬件的并行化能力。我们的方法是将 USM 和 PaLM 2 语言模型以每个片段评分模式结合起来，在 FLEURS 和 YouTube 字幕上实现了相对 WER 的平均改进 10.8％和 3.6％。此外，我们的综合消融研究分析了关键参数，如 LLM 大小、上下文长度、词汇大小、融合方法等。例如，我们探讨了 LLM 大小从 128M 到 340B 参数对 ASR 性能的影响。该研究为实际大规模 LM 融合语音识别系统的有效性提供了有价值的见解。

Jan, 2024

多域多设备 ASR 系统的统一建模

本文提出一种创新的方法，将不同领域和不同设备的模型整合成一个统一的模型，使用领域嵌入、领域专家、专家混合和对抗性训练来提高整体统一模型的准确性，并通过仔细的消融研究表明每个创新的好处，实验证明我们提出的统一建模方法实际上优于精心调整的专业领域模型。

May, 2022

使用知识蒸馏的语言通用适配器学习实现端到端多语言语音识别

本文提出了一个基于预训练模型的语言通用适配器学习框架，用于端到端的多语言自动语音识别。通过插入特定于语言和语言通用适配器来微调 Wav2Vec 2.0 预训练模型，然后使用在线知识蒸馏来使语言通用适配器学习特定于语言和通用特征，通过利用语言识别器（LID）降低语言信息混淆，进而改善识别准确率，并解决通用多语种 ASR 系统中适配器参数数量随语言数量线性增长的问题，BABEL 数据集上的实验结果验证了所提出框架的有效性，并相比传统的多语种模型取得了 3.3％的绝对误差率的降低。

Feb, 2023

使用旁路分离器进行多说话人重叠语音识别和说话人分离的统一建模

通过在单输出识别（ASR）模型中插入侧耳声分离器，结合说话人分离（diarization）任务，提出了一种能够同时定位多个讲话者的多讲话人重叠语音识别语音模型。

May, 2023

多语音识别中的代码切换适配器适应

本文提出了在代码转换的语音中有效地微调大型预训练多语言语音模型的方法，并将代码转换建模为一系列潜在的二进制序列，以引导每个语言适配器在帧级别上的信息流，通过在阿拉伯语、普通话和印地语等多种语言与英语配对的数据集上的评估，显示出代码转换性能的持续改进，至少可以将语音识别错误率 (CER) 降低 10％。

Oct, 2023