Sep, 2023

音频 - 语言表示学习的大规模数据集

TL;DR我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程,并构建了一个大规模、高质量的音频语言数据集 Auto-ACD,其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务(包括音频语言检索、音频说明和环境分类)上的性能改进,证明了所提出数据集的有效性。此外,我们建立了一个新颖的测试集,并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。