基于生成式基础模型的合成音频能辅助音频识别和语音建模吗？

Jun, 2024

基于生成式基础模型的合成音频能辅助音频识别和语音建模吗？

Can Synthetic Audio From Generative Foundation Models Assist Audio Recognition and Speech Modeling?

Tiantian Feng, Dimitrios Dimitriadis, Shrikanth Narayanan

TL;DR最近基础模型的进展使得能够生成与音乐、事件和人类活动相关的高保真声音的音频生成模型成为可能。尽管现代音频生成模型取得了成功，但传统的音频生成质量评估方法主要依赖于类似 Frechet Audio Distance 的距离度量。相比之下，本文旨在通过检验将其作为训练数据使用的效果来评估音频生成的质量，在这方面我们进行了一系列的研究。具体地，我们进行了使用合成音频进行音频识别的实验，同时探索了合成音频在语音相关建模中作为数据增强资源的潜力。全面的实验结果显示了使用合成音频进行音频识别和语音相关建模的潜力。我们的代码可在此 https URL 中获得。

Abstract

Recent advances in foundation models have enabled audio-generative models that produce high-fidelity sounds associated with music, events, and human actions. Despite the success achieved in modern →

foundation models audio-generative models quality assessment synthetic audio data augmentation

发现论文，激发创造

探索合成音频数据在基于音频的对话状态跟踪中的可行性

通过研究合成音频数据进行基于音频的对话状态追踪，该论文开发了级联和端到端模型，用合成音频数据进行训练，并在实际人类语音数据上进行了测试。实验结果显示，仅在合成数据集上训练的模型可以将其性能推广到人类语音数据。消除对人类语音数据采集的依赖，这些研究成果为基于音频的对话状态追踪的重要实际进展铺平了道路。

Dec, 2023

从合成音频 Doppelgangers 进行对比学习

通过使用合成音频生成具有因果关系的音色、音高和时间包络变化的混合音频，我们提出了一种轻量级的方法来学习健壮的音频表示，该方法可以减轻从真实世界音频中获取大规模数据的负担，并在标准音频分类基准上取得强大的表现。

Jun, 2024

为注意力语音识别系统生成合成音频数据

本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法，并证明仅需使用语音文本数据就可对 ASR 系统进行增强，相对于数据扩充的基线模型，本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低并且相对于最新 ASR 基线模型在 LibriSpeech-960h 上也获得了高达 5% 的未识别词率降低。

Dec, 2019

生成模型合成数据是否可以用于图像识别？

本文针对最新的文本到图像生成模型产生高保真类照片的现象进行了研究，详细探讨了这些合成图像在识别任务中的可行性和应用前景，并提出了针对数据缺乏情况和大规模模型预训练的综合应用策略。

Oct, 2022

增强合成语音的语音识别

本文探讨使用不同领域的双语料库进行音频识别训练的数据增强方法，通过使用 Tacotron 合成语音的方式，来提升语音识别的性能。研究表明，使用合成材料进行数据增强可以实现对语音识别性能的提高，但是自然语音和合成语音训练识别器的性能仍有很大的差距。

Sep, 2019

使用合成语音增强训练神经语音识别系统

利用 LibriSpeech 数据集，将合成语音与自然语音数据集相结合，使用神经网络训练的端到端自动语音识别模型达到了最新的状态，极大地推动了自动语音识别技术的进步。

Nov, 2018

基于生成对抗网络的音频到场景图像合成

通过使用生成对抗网络、谱范数、投影判别器和辅助分类器等技术，我们的模型可以更好地生成声音相关的图像，这表明我们的模型在一定程度上真正了解声音和图像之间的关系。