Clotho: 一个音频字幕数据集
该研究针对预先训练的文本和频谱图变换器,提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在 2023 年的 DCASE 挑战中排名第一,在 ClothoV2 基准测试中的表现优于当前的最新技术,提高了 5.6 个百分点的 mAP@10。
Aug, 2023
参加了 DCASE 2022 比赛的两个子任务:自动音频字幕和基于语言的音频检索。在 Clotho 数据集上评估使用多种评估指标的基线模型和一些实验,分别对音频字幕和语音检索任务的最终表现进行了改进。
Jul, 2022
近年来,通过对成对音频和字幕进行数据集的研究,自动生成音频剪辑的描述取得了显著的成功,即自动音频字幕生成(AAC)。然而,收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练(CLAP)最新进展的启发,我们提出了一种弱监督方法来训练 AAC 模型,只需要文本数据和经过预训练的 CLAP 模型,从而减轻了对配对目标数据的需求。我们的方法利用 CLAP 中音频和文本嵌入之间的相似性。在训练过程中,我们学习从 CLAP 文本嵌入中重构文本,在推断过程中,我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距,我们采用了在训练和推断阶段桥接差距的策略。我们在 Clotho 和 AudioCaps 数据集上评估了我们提出的方法,证明其相对于使用配对目标数据训练的完全监督方法可达到高达 83% 的性能水平。
Sep, 2023
音频字幕任务与图像和视频字幕任务在本质上相似,但鲜有关注。我们提出了音频字幕的三个愿景:生成文本的流畅性,生成文本对输入音频的忠实度以及听觉可感知性。我们的方法是零样本方法,不通过学习而是通过推理过程来进行字幕生成,其中涉及的三个网络对应三个期望的质量:(i)一个大型语言模型,本文中为 GPT-2,(ii)一个在音频文件和文本之间提供匹配分数的模型,我们使用一种名为 ImageBind 的多模态匹配网络,(iii)一个文本分类器,利用我们自动收集的数据集进行训练,数据集是通过指导 GPT-4 生成可听和不可听的句子而设计的。我们在 AudioCap 数据集上展示了我们的结果,证明了听觉指导明显提高了性能,相比缺乏这一目标的基准系统。
Sep, 2023
本研究提出了三个新的跨模态检索基准,用于研究现有文献中关注度较低的文本 — 音频和音频 — 文本检索任务。研究团队通过不同音频任务的预训练,在这三个基准上建立了交叉模态文本 — 音频和音频 — 文本检索的基线,并公开了数据集和代码,希望这些基准能够激发有关自由文本查询的音频检索的研究。
Dec, 2021
本研究介绍了 MSCOCO 数据集的增强版本,其中添加了语音和文本。使用文本转语音(TTS)合成生成语音说明,在语音信号中添加了不流畅和速度扰动以使其更加自然。此语料库可用于语言和视觉(LaVi)任务,其中包括语音输入或输出。同时在此数据集的一个子集上进行了初步的研究,探索了无监督语音模式发现的多模态学习方案。
Jul, 2017
本文介绍了一种名为 CLIP-AAC 的自动音频字幕系统,该系统结合声学和文本信息学习交互式跨模态表示,并应用对比学习来缩小领域差异,实验结果表明该方法在 NLP 评估标准上显著优于基线方法,表明预训练模型和对比学习对该模型的性能提升贡献都非常重要。
Mar, 2022