Aug, 2024

利用文本到语音和大型语言模型生成对话语音识别数据

TL;DR该研究解决了在对话语音识别中的数据获得困难,尤其是多说话者的合成数据生成问题。通过结合大型语言模型与对话多说话者文本到语音模型,本论文提出了一种高效的合成数据生成管道,显著提升了模型在电话和远程对话场景中的表现。此方法有效减少了对外部非对话性语音数据的依赖,提升了合成的语音识别能力。