Mar, 2023

WavCaps: 基于 ChatGPT 辅助的弱标注音频字幕数据集,用于音频 - 语言多模态研究

TL;DR本文介绍了 WavCaps 音频字幕数据集的构建方法,结合 ChatGPT 模型处理嘈杂的原始描述,最终得到了一个高质量的数据集。该数据集应用在多个音频 - 语言多模态学习任务中,取得了较大的进展。