Aug, 2024

利用大型语言模型提升多讲者自动语音识别性能

TL;DR本研究针对多讲者自动语音识别(ASR)中重叠语音识别的挑战,提出了一种基于大型语言模型(LLM)的序列化输出训练方法。这种新方法通过利用预训练的语音编码器和LLM,在多讲者数据集上进行微调,实验结果表明该方法在模拟数据集LibriMix和真实世界数据集AMI的评价集上都超越了传统的AED方法,显示出显著的性能提升。