TokenSplit: 使用离散语音表征进行直接、精确和转录条件下的语音分离与识别

Aug, 2023

TokenSplit: 使用离散语音表征进行直接、精确和转录条件下的语音分离与识别

TokenSplit: Using Discrete Speech Representations for Direct, Refined, and Transcript-Conditioned Speech Separation and Recognition

PDF

Hakan Erdogan, Scott Wisdom, Xuankai Chang, Zalán Borsos, Marco Tagliasacchi...

TL;DR我们提出了 TokenSplit，一种在离散标记序列上操作的语音分离模型。该模型通过输入掩码实现多任务训练，包括将每个语音源进行分离和转录，并从文本生成语音。我们还介绍了模型的 “修正” 版本，该版本通过传统分离模型分离的音频标记预测增强音频标记。通过客观度量和主观 MUSHRA 听测，我们证明了我们的模型在分离方面具有优秀的性能，无论是否有转录条件。我们还测量了自动语音识别（ASR）性能，并提供了语音合成的音频样本来展示我们模型的附加效用。

Abstract

We present tokensplit, a speech separation model that acts on discrete token sequences. The model is trained on multiple tasks simultaneously: separate and transcribe each speech source, and generate speech from

tokensplit speech separation transformer architecture refinement model automatic speech recognition

发现论文，激发创造

解码器专用变压器的离散令牌 ASR 无需损失遮蔽

该论文研究了在语音识别任务中，如何通过应用 KL 散度和平滑标签在输入的语音标记上，以有效地建模语音标记的自回归方式。实验证明，该方法缓解了交叉熵损失的局限性，并在基于解码器的 Transformer 的不同语音离散化方法中一致优于 Loss Masking。

Nov, 2023

儿童语音识别的离散标记增强

在这项研究中，我们调查了将离散语音标记整合到儿童语音识别系统中的方法，以解决数据稀缺和隐私问题，并探索了单视图和多视图策略，测试了模型的泛化能力。结果表明，儿童的离散标记语音识别系统几乎可以达到与传统方法相当的性能，并且参数减少了约 83%。

Jun, 2024

SpeechTokenizer: 面向大型语音模型的统一语音分词器

通过对语音令牌进行编码解码架构的统一建模和分层信息表征，提出了 SpeechTokenizer，用于语音大型语言模型的训练，其在语音重构和零样本语音合成任务中表现出色，相较于传统的语义和声学令牌在建模效果上有显著优势。

Aug, 2023

分离 - 转换 - 分段器：多方语音的流式识别和分割

提出了一种基于神经网络的新方法 ——STS，包括一种新的分割建模策略和一种新的发射规则方法 FastEmit 等，用于多方会谈的流媒体识别和分割。

May, 2022

支持会议识别的连续语音分离的混合编码器

此研究通过引入混合编码器，将重叠的语音分离为无重叠的流，从而处理多说话人和动态重叠的自然会议环境中的自动语音识别，实验结果表明混合编码器具有最先进的性能并强调了 TF-GridNet 的强大分离能力。

Sep, 2023

流式联合语音识别和语调异常检测

本研究通过基于 Transformer 框架的编码器 - 解码器模型提出了一种联合解决语音识别和流式识别中断相关的自然语言分析难题的方法，将其与传统的流水线工艺相比较，表现出更优异的准确性和实时性。

Nov, 2022

使用令牌级别的说话人嵌入进行分配流式讲话者自动语音识别

提出了一种基于 token 级别序列化输出训练 (t-SOT) 的流式说话者归属性自动语音识别 (SA-ASR) 模型，该模型可以在多人同时说话时实现低延迟的 “谁说了什么” 的识别，并提出了一种基于编码 - 解码的说话者嵌入提取器，可以从非重叠语音和重叠语音中为每个识别的令牌估计说话者表示。

Mar, 2022

使用令牌级串行化输出训练的流式多说话人 ASR

本文提出了一种基于 token 级别序列化输出训练（t-SOT）的新型流式多说话人自动语音识别框架，该框架在 LibriSpeechMix 和 LibriCSS 数据集中显示出比以前的结果更高的单词错误率的优势。

Feb, 2022

token2vec: 一个基于自监督联合预训练的框架，使用非配对语音和文本进行训练

本文提出了一种新型的基于离散语音表示的非配对语音和文本联合预训练框架，即 Token2Vec，通过模态不可知的 Transformer 编码器和令牌级掩码语言建模（tMLM）进行预训练，在非 ASR 任务上也表现出很好的可转移性，相对于各种仅语音预训练的基线，Token2Vec 的性能显著提高，最高相对 WER 降低了 17.7%。

Oct, 2022

无需转写的噪声和混响多说话人自动语音识别的语音分离模型微调

该论文提出了一种无需参考文本信息的联合训练方法，利用预训练的自动语音识别编码器的嵌入差异作为损失，通过改进的排列不变训练（PIT）方法 —— 引导式 PIT（GPIT），在不同度量指标上取得了 6.4% 的词错误率（WER）改善和感知度量指标（如短时客观清晰度）的提升。

Jun, 2024