SpeechTokenizer: 面向大型语音模型的统一语音分词器
探索联合的语言建模方法,比较不同语音分词方法和语音 - 文本混合数据构建方法,通过自动指标评估联合语言模型的混合效果,在不同模态下对下游口语理解任务进行微调并测试其性能,结果表明通过混合我们提出的语音单元和文本的方法,联合语言模型在口语理解任务上超过了单独语音的基准模型,并显示出跨模态的零 - shot 传递能力。
Oct, 2023
我们提出了 TokenSplit,一种在离散标记序列上操作的语音分离模型。该模型通过输入掩码实现多任务训练,包括将每个语音源进行分离和转录,并从文本生成语音。我们还介绍了模型的 “修正” 版本,该版本通过传统分离模型分离的音频标记预测增强音频标记。通过客观度量和主观 MUSHRA 听测,我们证明了我们的模型在分离方面具有优秀的性能,无论是否有转录条件。我们还测量了自动语音识别(ASR)性能,并提供了语音合成的音频样本来展示我们模型的附加效用。
Aug, 2023
我们提出了一种仅解码的语言模型 VoxtLM,可以执行四个任务:语音识别、语音合成、文本生成和语音延续。与单任务模型相比,VoxtLM 在语音合成方面显示出显著改进,语音可懂度从 28.9 提高到 5.6,客观质量从 2.68 提高到 3.90。VoxtLM 还改善了语音生成和语音识别的性能。 VoxtLM 使用公开可用的数据进行训练,并将训练配方和模型检查点开源,使工作能够完全可复现。
Sep, 2023
提出了一种跨模态的语音和语言模型,使用两种不同的离散标记器来处理语音和文本模态,取得了优异的成绩,尤其表现出色的是在 CoVoST-2 语音翻译任务上。
Sep, 2022
我们提出了一种方法,通过单一模型学习多语言语音和文本的统一表示,特别关注语音合成的目的。我们使用语音单元表示多语言语音音频,这是从自我监督语音模型编码的语音特征的量化表示。因此,我们可以将语音视为伪文本,并构建语音和文本的统一表示。然后,我们提出在多语言数据上通过单位到单位翻译 (UTUT) 目标训练编码器 - 解码器结构模型。通过使用源语言标记来确定编码器,使用目标语言标记来确定解码器,该模型被优化为将口语语言翻译为目标语言的翻译模型。因此,该模型可以建立口语语言的理解方式,并将其与不同语言相关联。单个经过预训练的 UTUT 模型可以用于各种多语言语音和文本相关任务,如语音到语音翻译 (STS)、多语言文本到语音合成 (TTS) 和文本到语音翻译 (TTST)。我们通过包含各种语言的综合实验验证了所提出方法的有效性。此外,我们展示了 UTUT 可以执行先前在文献中未探索的多对多语言 STS。样例可在此网址获取:https://URL
Aug, 2023
将无监督预训练应用于语言理解,在语音和文本之间建立单一模型,包括 BERT 目标和 w2v-BERT 目标以及其他预训练技术改进,同时在 GLUE 任务中也取得了不俗的竞争力。
Oct, 2021
通过发布离散音频和语音基准 (DASB),我们研究了离散音频标记符在各种任务中的性能表现,并发现语义标记比压缩标记在大多数任务中表现更好,但语义标记和标准连续表示之间的性能差距仍然存在。
Jun, 2024
该研究提出了 TWIST 方法,利用预训练的文本语言模型进行暖启动,从而训练语音语言模型,实验结果表明 TWIST 方法在多个方面胜过冷启动方法。基于观察结果,研究团队提出了迄今为止最大的 SpeechLM,并引入了两个口语版的 StoryCloze 文本基准来进一步改进模型评估和推动未来研究进展。
May, 2023
提出了一个名为统一口语对话模型(USDM)的广泛的语音文本模型框架,用于生成与给定输入语音相关的有机韵律特征的连贯口语回应,而不依赖于自动语音识别(ASR)或文本到语音(TTS)解决方案。该方法利用底层大型语言模型所展示的推理链能力,采用多步骤的语音文本推理方案。经过自动和人工评估表明,该方法在生成自然流畅的口语回应方面非常有效,优于之前的和级联的基线方法。详细的比较研究显示,尽管级联方法在单独的组件上更强大,但联合的语音文本建模改善了对识别错误和语音质量的鲁棒性。
Feb, 2024
我们介绍了一种新颖有效的语音翻译模型 LLM-ST,它基于预训练的大型语言模型(LLM),通过将 LLM 与语音编码器集成并使用多任务指导调优,LLM-ST 能够准确地生成带时间戳的转录和翻译,甚至可以处理长时间的音频输入。此外,我们的研究结果表明,在 LLM-ST 的环境下使用 CoT 提示可以带来优势。通过对英语和中文数据集的严格实验,我们展示了 LLM-ST 的卓越性能,在语音翻译领域树立了新的基准。演示:this https URL
Dec, 2023