SpeechTokenizer: 面向大型语音模型的统一语音分词器

Aug, 2023

SpeechTokenizer: 面向大型语音模型的统一语音分词器

SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models

Xin Zhang, Dong Zhang, Shimin Li, Yaqian Zhou, Xipeng Qiu

TL;DR通过对语音令牌进行编码解码架构的统一建模和分层信息表征，提出了 SpeechTokenizer，用于语音大型语言模型的训练，其在语音重构和零样本语音合成任务中表现出色，相较于传统的语义和声学令牌在建模效果上有显著优势。

Abstract

Current speech large language models build upon discrete speech representations, which can be categorized into semantic tokens and acoustic tokens. However, existing speech tokens are not specifically designed for speech language modeling. To assess the suitability of →

speech language models speech tokens speechtokenizer benchmark unified speech language model

发现论文，激发创造

面向语音单元和文本的联合语言建模

探索联合的语言建模方法，比较不同语音分词方法和语音 - 文本混合数据构建方法，通过自动指标评估联合语言模型的混合效果，在不同模态下对下游口语理解任务进行微调并测试其性能，结果表明通过混合我们提出的语音单元和文本的方法，联合语言模型在口语理解任务上超过了单独语音的基准模型，并显示出跨模态的零 - shot 传递能力。

Oct, 2023

TokenSplit: 使用离散语音表征进行直接、精确和转录条件下的语音分离与识别

我们提出了 TokenSplit，一种在离散标记序列上操作的语音分离模型。该模型通过输入掩码实现多任务训练，包括将每个语音源进行分离和转录，并从文本生成语音。我们还介绍了模型的 “修正” 版本，该版本通过传统分离模型分离的音频标记预测增强音频标记。通过客观度量和主观 MUSHRA 听测，我们证明了我们的模型在分离方面具有优秀的性能，无论是否有转录条件。我们还测量了自动语音识别（ASR）性能，并提供了语音合成的音频样本来展示我们模型的附加效用。

Aug, 2023

Voxtlm: 统一的解码器模型用于集成语音识别 / 合成和语音 / 文本延续任务

我们提出了一种仅解码的语言模型 VoxtLM，可以执行四个任务：语音识别、语音合成、文本生成和语音延续。与单任务模型相比，VoxtLM 在语音合成方面显示出显著改进，语音可懂度从 28.9 提高到 5.6，客观质量从 2.68 提高到 3.90。VoxtLM 还改善了语音生成和语音识别的性能。 VoxtLM 使用公开可用的数据进行训练，并将训练配方和模型检查点开源，使工作能够完全可复现。

Sep, 2023

SpeechLM: 用非配对文本数据增强的语音预训练

提出了一种跨模态的语音和语言模型，使用两种不同的离散标记器来处理语音和文本模态，取得了优异的成绩，尤其表现出色的是在 CoVoST-2 语音翻译任务上。

Sep, 2022

多对多口语翻译通过统一语音和文本表征学习与单元翻译

我们提出了一种方法，通过单一模型学习多语言语音和文本的统一表示，特别关注语音合成的目的。我们使用语音单元表示多语言语音音频，这是从自我监督语音模型编码的语音特征的量化表示。因此，我们可以将语音视为伪文本，并构建语音和文本的统一表示。然后，我们提出在多语言数据上通过单位到单位翻译 (UTUT) 目标训练编码器 - 解码器结构模型。通过使用源语言标记来确定编码器，使用目标语言标记来确定解码器，该模型被优化为将口语语言翻译为目标语言的翻译模型。因此，该模型可以建立口语语言的理解方式，并将其与不同语言相关联。单个经过预训练的 UTUT 模型可以用于各种多语言语音和文本相关任务，如语音到语音翻译 (STS)、多语言文本到语音合成 (TTS) 和文本到语音翻译 (TTST)。我们通过包含各种语言的综合实验验证了所提出方法的有效性。此外，我们展示了 UTUT 可以执行先前在文献中未探索的多对多语言 STS。样例可在此网址获取：https://URL

Aug, 2023

SLAM: 通过语音 - 文本联合预训练实现语音和语言建模的统一编码器

将无监督预训练应用于语言理解，在语音和文本之间建立单一模型，包括 BERT 目标和 w2v-BERT 目标以及其他预训练技术改进，同时在 GLUE 任务中也取得了不俗的竞争力。

Oct, 2021

DASB -- 离散音频和语音基准

通过发布离散音频和语音基准 (DASB)，我们研究了离散音频标记符在各种任务中的性能表现，并发现语义标记比压缩标记在大多数任务中表现更好，但语义标记和标准连续表示之间的性能差距仍然存在。

Jun, 2024

文本预训练的语音语言模型

该研究提出了 TWIST 方法，利用预训练的文本语言模型进行暖启动，从而训练语音语言模型，实验结果表明 TWIST 方法在多个方面胜过冷启动方法。基于观察结果，研究团队提出了迄今为止最大的 SpeechLM，并引入了两个口语版的 StoryCloze 文本基准来进一步改进模型评估和推动未来研究进展。

May, 2023

口语对话建模的统一语音文本预训练

提出了一个名为统一口语对话模型（USDM）的广泛的语音文本模型框架，用于生成与给定输入语音相关的有机韵律特征的连贯口语回应，而不依赖于自动语音识别（ASR）或文本到语音（TTS）解决方案。该方法利用底层大型语言模型所展示的推理链能力，采用多步骤的语音文本推理方案。经过自动和人工评估表明，该方法在生成自然流畅的口语回应方面非常有效，优于之前的和级联的基线方法。详细的比较研究显示，尽管级联方法在单独的组件上更强大，但联合的语音文本建模改善了对识别错误和语音质量的鲁棒性。

Feb, 2024

大语言模型的语音翻译：一个工业实践

我们介绍了一种新颖有效的语音翻译模型 LLM-ST，它基于预训练的大型语言模型（LLM），通过将 LLM 与语音编码器集成并使用多任务指导调优，LLM-ST 能够准确地生成带时间戳的转录和翻译，甚至可以处理长时间的音频输入。此外，我们的研究结果表明，在 LLM-ST 的环境下使用 CoT 提示可以带来优势。通过对英语和中文数据集的严格实验，我们展示了 LLM-ST 的卓越性能，在语音翻译领域树立了新的基准。演示：this https URL

Dec, 2023