Clotho: 一个音频字幕数据集

Oct, 2019

Clotho: An Audio Captioning Dataset

Konstantinos Drossos, Samuel Lipping, Tuomas Virtanen

TL;DR本文介绍了 Clotho 数据集和基准方法，Clotho 是一个用于音频字幕生成的数据集，拥有 4981 个音频样本和 24 905 个字幕，所有音频来自 Freesound 平台，字幕通过 Amazon Mechanical Turk 和英语国家的注释者众包。

Abstract

audio captioning is the novel task of general audio content description using free text. It is an intermodal translation task (not speech-to-text), where a system accepts as an input an audio signal and outputs t

audio captioning clotho dataset intermodal translation freesound platform crowdsourcing

发现论文，激发创造

利用 PaSST 和大量音频标题数据集推进基于自然语言的音频检索

该研究针对预先训练的文本和频谱图变换器，提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在 2023 年的 DCASE 挑战中排名第一，在 ClothoV2 基准测试中的表现优于当前的最新技术，提高了 5.6 个百分点的 mAP@10。

Aug, 2023

自动音频字幕和基于语言的音频检索

参加了 DCASE 2022 比赛的两个子任务：自动音频字幕和基于语言的音频检索。在 Clotho 数据集上评估使用多种评估指标的基线模型和一些实验，分别对音频字幕和语音检索任务的最终表现进行了改进。

Jul, 2022

RECAP：检索增强音频字幕

RECAP 是一种新颖有效的音频字幕系统，通过从数据存储中检索与输入音频类似的其他字幕来生成字幕，并且无需额外的微调即可适用于任何领域。

Sep, 2023

使用自然语言查询的音频检索

本研究介绍了新的基准，使用自由形式的自然语言查询中的文本注释，旨在研究文本查询的语音检索问题，同时探讨跨模态音频检索的优势和基准，以及优化方法。

May, 2021

基于文本 - only 训练实现的弱监督自动音频字幕生成

近年来，通过对成对音频和字幕进行数据集的研究，自动生成音频剪辑的描述取得了显著的成功，即自动音频字幕生成（AAC）。然而，收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练（CLAP）最新进展的启发，我们提出了一种弱监督方法来训练 AAC 模型，只需要文本数据和经过预训练的 CLAP 模型，从而减轻了对配对目标数据的需求。我们的方法利用 CLAP 中音频和文本嵌入之间的相似性。在训练过程中，我们学习从 CLAP 文本嵌入中重构文本，在推断过程中，我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距，我们采用了在训练和推断阶段桥接差距的策略。我们在 Clotho 和 AudioCaps 数据集上评估了我们提出的方法，证明其相对于使用配对目标数据训练的完全监督方法可达到高达 83% 的性能水平。

Sep, 2023

自动音频字幕生成：近期进展与新挑战概述

本文综述了自动音频字幕生成领域内的研究现状，包括使用的深度学习技术、网络架构、评估指标和挑战，同时讨论了未来的研究方向。

May, 2022

通过听觉引导的零射频音频字幕生成

音频字幕任务与图像和视频字幕任务在本质上相似，但鲜有关注。我们提出了音频字幕的三个愿景：生成文本的流畅性，生成文本对输入音频的忠实度以及听觉可感知性。我们的方法是零样本方法，不通过学习而是通过推理过程来进行字幕生成，其中涉及的三个网络对应三个期望的质量：（i）一个大型语言模型，本文中为 GPT-2，（ii）一个在音频文件和文本之间提供匹配分数的模型，我们使用一种名为 ImageBind 的多模态匹配网络，（iii）一个文本分类器，利用我们自动收集的数据集进行训练，数据集是通过指导 GPT-4 生成可听和不可听的句子而设计的。我们在 AudioCap 数据集上展示了我们的结果，证明了听觉指导明显提高了性能，相比缺乏这一目标的基准系统。

Sep, 2023

使用自然语言查询的音频检索：基准研究

本研究提出了三个新的跨模态检索基准，用于研究现有文献中关注度较低的文本 — 音频和音频 — 文本检索任务。研究团队通过不同音频任务的预训练，在这三个基准上建立了交叉模态文本 — 音频和音频 — 文本检索的基线，并公开了数据集和代码，希望这些基准能够激发有关自由文本查询的音频检索的研究。

Dec, 2021

SPEECH-COCO: 60 万对齐 MSCOCO 数据集的视觉对应口述字幕

本研究介绍了 MSCOCO 数据集的增强版本，其中添加了语音和文本。使用文本转语音（TTS）合成生成语音说明，在语音信号中添加了不流畅和速度扰动以使其更加自然。此语料库可用于语言和视觉（LaVi）任务，其中包括语音输入或输出。同时在此数据集的一个子集上进行了初步的研究，探索了无监督语音模式发现的多模态学习方案。

Jul, 2017

基于对比学习的自动音频字幕交互式音频文本表示

本文介绍了一种名为 CLIP-AAC 的自动音频字幕系统，该系统结合声学和文本信息学习交互式跨模态表示，并应用对比学习来缩小领域差异，实验结果表明该方法在 NLP 评估标准上显著优于基线方法，表明预训练模型和对比学习对该模型的性能提升贡献都非常重要。

Mar, 2022