利用大型语言模型提升多讲者自动语音识别性能
本文提出了一种基于token级别序列化输出训练(t-SOT)的新型流式多说话人自动语音识别框架,该框架在LibriSpeechMix和LibriCSS数据集中显示出比以前的结果更高的单词错误率的优势。
Feb, 2022
该论文提出了一种新的流式机器人语音识别框架,用于捕获具有任意几何结构的远程麦克风阵列捕获的多个讲话者的重叠语音,并提出了一种基于 VarArray 和 t-SOT 的新型 t-SOT-VA 框架,其结合了连续语音分离和多讲话者语音识别技术。
Sep, 2022
本文提出了一种改进的模拟多说者重叠讲话的技术,该技术使用离散标记的序列来表示任意模式的语音重叠,从而使模型能够从实际对话中学习语音重叠模式,并在多个数据集上提高了单词错误率。
Oct, 2022
该论文提出了一种基于边界的序列化输出训练(BA-SOT)模型,通过显式地将边界知识纳入解码器,结合语音识别的多个发言者和发言者变化预测,及通过引入二阶段连接时序分类(CTC)策略的令牌级SOT CTC来恢复时间上下文信息,并引入了针对发言者变化预测精度的话语依存的字符错误率(UD-CER)。BA-SOT模型在CER / UD-CER方面均优于原始SOT模型,并且可以通过预训练的ASR模型进行BA-SOT模型初始化。
May, 2023
该论文提出了一种使用改进的序列化输出训练和轻量级适配器模块来解决在会议对话中经常出现的多说话者自动语音识别(ASR)问题的方法,实验结果表明该方法有效地将USMs转换为具有时间戳预测能力的强大的多语言多说话人ASR模型
May, 2023
该论文通过比较研究了三种常用的连接结构,包括全连接层、多头交叉注意力和Q-Former,并对Whisper系列的语音编码器和Vicuna系列的大语言模型进行了实验,结果表明基于Q-Former的大语言模型相比其他连接结构在LibriSpeech、Common Voice和GigaSpeech数据集上均取得了一致且显著的词错误率降低。此外,提出了一种新颖的片段级Q-Former,使大语言模型能够识别超过编码器限制的持续时间的语音片段,在90秒长的语音数据上相比其他连接结构取得了17%的词错误率降低。
Sep, 2023
这项工作提出了一个跨说话人编码(Cross-Speaker Encoding,CSE)网络,将单输入多输出(SIMO)模型的局限性通过集成串行输出训练(SOT)的基于注意力的编码器-解码器架构的单输入单输出(SISO)模型来解决,首次尝试将SIMO和SISO整合进多说话人语音识别中,实验结果表明CSE-SOT模型在LibrispeechMix数据集上比SOT模型的词错误率(WER)平均降低10%,在高重叠语音上降低16%。
Jan, 2024
通过在注意力编码器-解码器架构中引入辅助模块,自动识别多讲话者语音输出序列的关键因素,本研究提出了一种基于模型的串行化策略。实验结果表明,在LibriSpeech和LibriMix数据库上,我们的方法在2个混合和3个混合情况下显著超越了PIT和FIFO基准。进一步分析显示,串行化模块通过音量和性别等因素识别混合中的主要语音成分,并根据优先级得分对语音成分进行排序。
Jul, 2024
本研究针对当前大型语言模型在多说话者场景中的应用缺乏,首次探讨了其在这些复杂环境中进行转录的潜力。通过结合WavLM和Whisper编码器提取多维语音特征,并将其输入到微调的LLM中,我们展示了MT-LLM系统在鸡尾酒会场景中的优异表现,证明了LLM在遵循用户指令进行语音处理方面的巨大潜力。
Sep, 2024