GPU 可用的模块化合成器中的十亿音频声音
我们提出了 Synthia's melody,一个能够模拟具有用户指定混淆结构的无数种 4 秒旋律的音频数据生成框架,用以填补未经探索的音频领域无监督领域适应性研究的空白,并通过生成两种类型的分布偏移 - 模型域偏移和样本选择偏差来评估声学深度学习模型在这些偏移下的表现。我们的评估结果显示,Synthia's melody 为检验这些模型对不同程度分布偏移敏感性提供了稳健的测试平台。
Sep, 2023
我们提出了一种文本到音频生成方法(CTAG),该方法利用具有仅有 78 个参数的虚拟模块化声音合成器,通过迭代更新合成器的参数,生成易于检查和调整的高质量音频渲染,其中产生的声音更抽象,捕捉了基本概念特征而非细粒度声学细节,类似于简单的素描可以生动地传达视觉概念。我们的研究结果显示 CTAG 生成的声音独特,并被视为艺术性的,同时也可以类似地识别为最近的神经音频合成模型,使其成为一种有价值且互补的工具。
Jun, 2024
利用文本提示生成长篇 44.1kHz 立体声音频的计算效率较高,利用条件生成模型、稳定音频技术和潜在变化等方法,可以以较快速度生成出拥有结构和立体声音效的音乐。
Feb, 2024
SynthScribe 是一个基于多模态深度学习的全栈系统,通过解决搜索现有声音、创造全新声音和对给定声音进行有意义修改等问题,以更高层次表达用户意图。用户研究结果显示 SynthScribe 能够可靠地检索和修改声音,并能创造全新声音,拓展音乐家的创造空间。
Dec, 2023
最近基础模型的进展使得能够生成与音乐、事件和人类活动相关的高保真声音的音频生成模型成为可能。尽管现代音频生成模型取得了成功,但传统的音频生成质量评估方法主要依赖于类似 Frechet Audio Distance 的距离度量。相比之下,本文旨在通过检验将其作为训练数据使用的效果来评估音频生成的质量,在这方面我们进行了一系列的研究。具体地,我们进行了使用合成音频进行音频识别的实验,同时探索了合成音频在语音相关建模中作为数据增强资源的潜力。全面的实验结果显示了使用合成音频进行音频识别和语音相关建模的潜力。我们的代码可在此 https URL 中获得。
Jun, 2024
本文解决了解缠音频表示学习中基准数据的稀缺问题。我们介绍了 SynTone,这是一个合成数据集,具有明确的基准解释因素,用于评估解缠技术。在 SynTone 上评估最先进的方法展示了它在方法评估中的实用性。我们的结果强调了音频解缠的优势和局限性,推动了未来的研究。
Feb, 2024
本文提出了一种基于得分的生成模型,利用扩散过程建模和条件 U-Net 逼近得分函数实现音频合成。该方法可以以高分辨率 44.1kHz 可控生成短小的打击声音,并且适用于多种采样方案,包括类条件采样和杂交声音生成。相比其他基于 GAN 的方法,该方法模型轻便、易于训练。
Jun, 2021
本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法,并证明仅需使用语音文本数据就可对 ASR 系统进行增强,相对于数据扩充的基线模型,本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低并且相对于最新 ASR 基线模型在 LibriSpeech-960h 上也获得了高达 5% 的未识别词率降低。
Dec, 2019
通过提供相关数据集和评估指标,我们引入了 AudioBench,这是一个旨在评估语音大型语言模型(AudioLLMs)的新基准。我们在研究中评估了四个模型的能力,并发现没有单一模型在所有任务中都表现出色。我们概述了 AudioLLMs 的研究展望,并预计我们的开源代码、数据和排行榜将为未来模型发展提供一个强大的测试平台。
Jun, 2024
NeurIPS 2023 Machine Learning for Audio Workshop 演讲者共同讨论并阐明了对音频的机器学习的重要性及挑战,提供了几个开放数据集和以往研究的基准模型。
Mar, 2024