利用大型语言模型提升多讲者自动语音识别性能

Aug, 2024

利用大型语言模型提升多讲者自动语音识别性能

Advancing Multi-talker ASR Performance with Large Language Models

Mohan Shi, Zengrui Jin, Yaoxun Xu, Yong Xu, Shi-Xiong Zhang...

TL;DR本研究针对多讲者自动语音识别（ASR）中重叠语音识别的挑战，提出了一种基于大型语言模型（LLM）的序列化输出训练方法。这种新方法通过利用预训练的语音编码器和LLM，在多讲者数据集上进行微调，实验结果表明该方法在模拟数据集LibriMix和真实世界数据集AMI的评价集上都超越了传统的AED方法，显示出显著的性能提升。

Abstract

Recognizing overlapping speech from multiple speakers in conversational scenarios is one of the most challenging problem for automatic Speech Recognition (ASR). Serialized Output Training (SOT) is a classic metho

发现论文，激发创造

使用令牌级串行化输出训练的流式多说话人ASR

本文提出了一种基于token级别序列化输出训练（t-SOT）的新型流式多说话人自动语音识别框架，该框架在LibriSpeechMix和LibriCSS数据集中显示出比以前的结果更高的单词错误率的优势。

Feb, 2022

VarArray meets t-SOT: 推进流式远场对话语音识别技术的最新进展

该论文提出了一种新的流式机器人语音识别框架，用于捕获具有任意几何结构的远程麦克风阵列捕获的多个讲话者的重叠语音，并提出了一种基于 VarArray 和 t-SOT 的新型 t-SOT-VA 框架，其结合了连续语音分离和多讲话者语音识别技术。

Sep, 2022

通过模拟真实的语音重叠，提高多说话人语音识别

本文提出了一种改进的模拟多说者重叠讲话的技术，该技术使用离散标记的序列来表示任意模式的语音重叠，从而使模型能够从实际对话中学习语音重叠模式，并在多个数据集上提高了单词错误率。

Oct, 2022

BA-SOT: 面向多说话人语音识别的边界感知序列化输出训练

该论文提出了一种基于边界的序列化输出训练（BA-SOT）模型，通过显式地将边界知识纳入解码器，结合语音识别的多个发言者和发言者变化预测，及通过引入二阶段连接时序分类（CTC）策略的令牌级SOT CTC来恢复时间上下文信息，并引入了针对发言者变化预测精度的话语依存的字符错误率（UD-CER）。BA-SOT模型在CER / UD-CER方面均优于原始SOT模型，并且可以通过预训练的ASR模型进行BA-SOT模型初始化。

May, 2023

为处理多个说话人而改编多语言ASR模型

该论文提出了一种使用改进的序列化输出训练和轻量级适配器模块来解决在会议对话中经常出现的多说话者自动语音识别（ASR）问题的方法，实验结果表明该方法有效地将USMs转换为具有时间戳预测能力的强大的多语言多说话人ASR模型

May, 2023

连接语音编码器和大型语言模型用于ASR

该论文通过比较研究了三种常用的连接结构，包括全连接层、多头交叉注意力和Q-Former，并对Whisper系列的语音编码器和Vicuna系列的大语言模型进行了实验，结果表明基于Q-Former的大语言模型相比其他连接结构在LibriSpeech、Common Voice和GigaSpeech数据集上均取得了一致且显著的词错误率降低。此外，提出了一种新颖的片段级Q-Former，使大语言模型能够识别超过编码器限制的持续时间的语音片段，在90秒长的语音数据上相比其他连接结构取得了17%的词错误率降低。

Sep, 2023

长篇语音识别的更新语料库和基准

本文重新发布三个标准的ASR语料库，用于长篇ASR研究，并研究了训练与测试数据不匹配问题，通过基准测试展示了长篇训练在此领域转变下的模型鲁棒性。

Sep, 2023

跨说话人编码网络用于多说话者语音识别

这项工作提出了一个跨说话人编码（Cross-Speaker Encoding，CSE）网络，将单输入多输出（SIMO）模型的局限性通过集成串行输出训练（SOT）的基于注意力的编码器-解码器架构的单输入单输出（SISO）模型来解决，首次尝试将SIMO和SISO整合进多说话人语音识别中，实验结果表明CSE-SOT模型在LibrispeechMix数据集上比SOT模型的词错误率（WER）平均降低10％，在高重叠语音上降低16％。

Jan, 2024

学习主导性的序列输出训练

通过在注意力编码器-解码器架构中引入辅助模块，自动识别多讲话者语音输出序列的关键因素，本研究提出了一种基于模型的串行化策略。实验结果表明，在LibriSpeech和LibriMix数据库上，我们的方法在2个混合和3个混合情况下显著超越了PIT和FIFO基准。进一步分析显示，串行化模块通过音量和性别等因素识别混合中的主要语音成分，并根据优先级得分对语音成分进行排序。

Jul, 2024

大型语言模型可以在多说话者场景中根据多样化指令进行语音转录

本研究针对当前大型语言模型在多说话者场景中的应用缺乏，首次探讨了其在这些复杂环境中进行转录的潜力。通过结合WavLM和Whisper编码器提取多维语音特征，并将其输入到微调的LLM中，我们展示了MT-LLM系统在鸡尾酒会场景中的优异表现，证明了LLM在遵循用户指令进行语音处理方面的巨大潜力。

Sep, 2024