Feb, 2024

口语对话建模的统一语音文本预训练

TL;DR提出了一个名为统一口语对话模型(USDM)的广泛的语音文本模型框架,用于生成与给定输入语音相关的有机韵律特征的连贯口语回应,而不依赖于自动语音识别(ASR)或文本到语音(TTS)解决方案。该方法利用底层大型语言模型所展示的推理链能力,采用多步骤的语音文本推理方案。经过自动和人工评估表明,该方法在生成自然流畅的口语回应方面非常有效,优于之前的和级联的基线方法。详细的比较研究显示,尽管级联方法在单独的组件上更强大,但联合的语音文本建模改善了对识别错误和语音质量的鲁棒性。