Sep, 2024

大型语言模型可以在多说话者场景中根据多样化指令进行语音转录

TL;DR本研究针对当前大型语言模型在多说话者场景中的应用缺乏,首次探讨了其在这些复杂环境中进行转录的潜力。通过结合WavLM和Whisper编码器提取多维语音特征,并将其输入到微调的LLM中,我们展示了MT-LLM系统在鸡尾酒会场景中的优异表现,证明了LLM在遵循用户指令进行语音处理方面的巨大潜力。