DASB -- 离散音频和语音基准

Jun, 2024

DASB -- Discrete Audio and Speech Benchmark

Pooneh Mousavi, Luca Della Libera, Jarod Duret, Artem Ploujnikov, Cem Subakan...

TL;DR通过发布离散音频和语音基准 (DASB)，我们研究了离散音频标记符在各种任务中的性能表现，并发现语义标记比压缩标记在大多数任务中表现更好，但语义标记和标准连续表示之间的性能差距仍然存在。

Abstract

Discrete audio tokens have recently gained considerable attention for their potential to connect audio and language processing, enabling the creation of modern multimodal large language models. Ideal

audio tokens language processing discrete audio and speech benchmark semantic tokens continuous representations

发现论文，激发创造

如何从自监督模型中提取离散音频标记？

这篇论文探讨了语义标记的最佳配置，提出了训练通用声码器的可扩展解决方案，并使用注意机制来提高语义标记在多种音频应用中的适应性和性能。

Jun, 2024

探索音频单元标记化的好处

本文展示了在三项预测任务中使用音素单元和 DAU 分词的优势，包括字素到音素、字素到 DAU 和使用 DAU 语言建模的无监督语音生成，并且证明了分词在性能、训练和推理速度上的显著改进，同时提供了理论解释。

Jun, 2024

儿童语音识别的离散标记增强

在这项研究中，我们调查了将离散语音标记整合到儿童语音识别系统中的方法，以解决数据稀缺和隐私问题，并探索了单视图和多视图策略，测试了模型的泛化能力。结果表明，儿童的离散标记语音识别系统几乎可以达到与传统方法相当的性能，并且参数减少了约 83%。

Jun, 2024

SpeechTokenizer: 面向大型语音模型的统一语音分词器

通过对语音令牌进行编码解码架构的统一建模和分层信息表征，提出了 SpeechTokenizer，用于语音大型语言模型的训练，其在语音重构和零样本语音合成任务中表现出色，相较于传统的语义和声学令牌在建模效果上有显著优势。

Aug, 2023

语音命令：有限词汇语音识别数据集

本文描述了一份音频数据集，可以用于训练和评估关键词检测系统，并介绍了为什么该任务是一个有趣的挑战，以及为什么需要不同于用于自动语音识别的常规数据集的专门数据集。本文还提出了一种方法来实现可重复和可比较的准确性指标，并描述了数据的收集和验证方式、数据的属性以及以前的版本。最后，报告了在该数据集上训练的模型的基线结果。

Apr, 2018

TokenSplit: 使用离散语音表征进行直接、精确和转录条件下的语音分离与识别

我们提出了 TokenSplit，一种在离散标记序列上操作的语音分离模型。该模型通过输入掩码实现多任务训练，包括将每个语音源进行分离和转录，并从文本生成语音。我们还介绍了模型的 “修正” 版本，该版本通过传统分离模型分离的音频标记预测增强音频标记。通过客观度量和主观 MUSHRA 听测，我们证明了我们的模型在分离方面具有优秀的性能，无论是否有转录条件。我们还测量了自动语音识别（ASR）性能，并提供了语音合成的音频样本来展示我们模型的附加效用。

Aug, 2023

ESB：多域端到端语音识别基准测试

本文介绍了一个最新的基于端到端的语音识别测试平台，探讨了跨多个不同数据集和语音分布时对识别相同语音流的支持，并对不同的系统进行了比较分析分析，发现端到端系统在不同数据集的应用效果良好，并指出了如何改进现有语音识别系统存在的问题。

Oct, 2022

DASA：面向说话人验证的难度感知语义增强

通过围绕发音人嵌入空间中的语义方向对训练样本进行扰动，使用鲁棒性发音人嵌入来估计准确的协方差矩阵，并推导出了预期损失的闭式上界，该研究提出了一种新颖的难度感知的语义扩增方法，能够在几乎没有额外计算成本的情况下产生多样化的训练样本，取得了令人瞩目的性能改进。

Oct, 2023

关于言语评估中规范数据的重要性

通过使用基于语音的图片描述评估的两个规范数据集，通过 ADASYN 对 DementiaBank 进行少数类过采样，我们优于二元分类，这突显了将稀疏且难以获取的患者数据与相对较大且易于访问的规范数据集相结合的有效性。

Nov, 2017

使用离散化语音单元探索语音识别、翻译和理解：一项比较研究

通过对离散单元在端到端语音处理模型中应用的系统和全面的探索，实验证明离散单元在几乎所有设置中都可以取得相当好的结果。

Sep, 2023