Jun, 2024

基于生成式基础模型的合成音频能辅助音频识别和语音建模吗?

TL;DR最近基础模型的进展使得能够生成与音乐、事件和人类活动相关的高保真声音的音频生成模型成为可能。尽管现代音频生成模型取得了成功,但传统的音频生成质量评估方法主要依赖于类似 Frechet Audio Distance 的距离度量。相比之下,本文旨在通过检验将其作为训练数据使用的效果来评估音频生成的质量,在这方面我们进行了一系列的研究。具体地,我们进行了使用合成音频进行音频识别的实验,同时探索了合成音频在语音相关建模中作为数据增强资源的潜力。全面的实验结果显示了使用合成音频进行音频识别和语音相关建模的潜力。我们的代码可在此 https URL 中获得。