DASB -- 离散音频和语音基准
本文展示了在三项预测任务中使用音素单元和 DAU 分词的优势,包括字素到音素、字素到 DAU 和使用 DAU 语言建模的无监督语音生成,并且证明了分词在性能、训练和推理速度上的显著改进,同时提供了理论解释。
Jun, 2024
在这项研究中,我们调查了将离散语音标记整合到儿童语音识别系统中的方法,以解决数据稀缺和隐私问题,并探索了单视图和多视图策略,测试了模型的泛化能力。结果表明,儿童的离散标记语音识别系统几乎可以达到与传统方法相当的性能,并且参数减少了约 83%。
Jun, 2024
通过对语音令牌进行编码解码架构的统一建模和分层信息表征,提出了 SpeechTokenizer,用于语音大型语言模型的训练,其在语音重构和零样本语音合成任务中表现出色,相较于传统的语义和声学令牌在建模效果上有显著优势。
Aug, 2023
本文描述了一份音频数据集,可以用于训练和评估关键词检测系统,并介绍了为什么该任务是一个有趣的挑战,以及为什么需要不同于用于自动语音识别的常规数据集的专门数据集。本文还提出了一种方法来实现可重复和可比较的准确性指标,并描述了数据的收集和验证方式、数据的属性以及以前的版本。最后,报告了在该数据集上训练的模型的基线结果。
Apr, 2018
我们提出了 TokenSplit,一种在离散标记序列上操作的语音分离模型。该模型通过输入掩码实现多任务训练,包括将每个语音源进行分离和转录,并从文本生成语音。我们还介绍了模型的 “修正” 版本,该版本通过传统分离模型分离的音频标记预测增强音频标记。通过客观度量和主观 MUSHRA 听测,我们证明了我们的模型在分离方面具有优秀的性能,无论是否有转录条件。我们还测量了自动语音识别(ASR)性能,并提供了语音合成的音频样本来展示我们模型的附加效用。
Aug, 2023
本文介绍了一个最新的基于端到端的语音识别测试平台,探讨了跨多个不同数据集和语音分布时对识别相同语音流的支持,并对不同的系统进行了比较分析分析,发现端到端系统在不同数据集的应用效果良好,并指出了如何改进现有语音识别系统存在的问题。
Oct, 2022
通过围绕发音人嵌入空间中的语义方向对训练样本进行扰动,使用鲁棒性发音人嵌入来估计准确的协方差矩阵,并推导出了预期损失的闭式上界,该研究提出了一种新颖的难度感知的语义扩增方法,能够在几乎没有额外计算成本的情况下产生多样化的训练样本,取得了令人瞩目的性能改进。
Oct, 2023
通过使用基于语音的图片描述评估的两个规范数据集,通过 ADASYN 对 DementiaBank 进行少数类过采样,我们优于二元分类,这突显了将稀疏且难以获取的患者数据与相对较大且易于访问的规范数据集相结合的有效性。
Nov, 2017