基于辅助检索模型扩展EnCLAP的自动音频字幕生成

Sep, 2024

基于辅助检索模型扩展EnCLAP的自动音频字幕生成

Expanding on EnCLAP with Auxiliary Retrieval Model for Automated Audio Captioning

Jaeyeon Kim, Jaeyoon Jung, Minjeong Jeon, Sang Hoon Woo, Jinjoo Lee

TL;DR本文解决了自动音频字幕生成和基于语言的音频检索中的研究空白。我们在EnCLAP框架的基础上，优化了任务6的音频字幕生成，并提出了补充的检索模型用于任务8。研究表明，我们的方法在任务6和任务8中显著超过了基线模型，具有重要的应用价值。

Abstract

In this technical report, we describe our submission to DCASE2024 Challenge Task6 (Automated Audio Captioning) and Task8 (Language-based Audio Retrieval). We develop our approach building upon the EnCLAP

发现论文，激发创造

自动音频字幕生成：近期进展与新挑战概述

本文综述了自动音频字幕生成领域内的研究现状，包括使用的深度学习技术、网络架构、评估指标和挑战，同时讨论了未来的研究方向。

May, 2022

自动音频字幕和基于语言的音频检索

参加了 DCASE 2022 比赛的两个子任务：自动音频字幕和基于语言的音频检索。在 Clotho 数据集上评估使用多种评估指标的基线模型和一些实验，分别对音频字幕和语音检索任务的最终表现进行了改进。

Jul, 2022

使用WavText5K和CLAP训练进行音频检索

本文提出了一个新的Web音频文本检索框架，使用文本编码器、两个音频编码器和对比学习目标来实现语言和音频内容间的连接，包括多个数据集的使用，取得了相对于AudioCaps和Clotho在文本-音频检索上2％和16％的提高，对于音频-文本检索上的6％和23％的提高。

Sep, 2022

利用PaSST和大量音频标题数据集推进基于自然语言的音频检索

该研究针对预先训练的文本和频谱图变换器，提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在2023年的DCASE挑战中排名第一，在ClothoV2基准测试中的表现优于当前的最新技术，提高了5.6个百分点的mAP@10。

Aug, 2023

一石二鸟：音频字幕系统是否也可用于音频文本检索？

通过探索未经微调的AAC系统，该研究调查了AAC和ATR之间的关系，发现使用标准的Cross-Entropy损失值可以实现良好的ATR性能。

Aug, 2023

RECAP：检索增强音频字幕

RECAP是一种新颖有效的音频字幕系统，通过从数据存储中检索与输入音频类似的其他字幕来生成字幕，并且无需额外的微调即可适用于任何领域。

Sep, 2023

音频-语言表示学习的大规模数据集

我们提出了一种基于公共工具或API的创新型自动音频说明生成流程，并构建了一个大规模、高质量的音频语言数据集Auto-ACD，其中包含超过190万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务（包括音频语言检索、音频说明和环境分类）上的性能改进，证明了所提出数据集的有效性。此外，我们建立了一个新颖的测试集，并为音频文本任务提供了一个基准。该数据集将在此https URL上发布。

Sep, 2023

EnCLAP：基于神经音频编解码器和音频文本联合嵌入的自动音频字幕生成

我们提出了一种自动音频字幕的新框架EnCLAP，使用了两个声学表示模型EnCodec和CLAP以及一个预训练语言模型BART。我们还引入了一种称为masked codec modeling的新训练目标，提高了预训练语言模型的声学感知能力。在AudioCaps和Clotho上的实验结果表明，我们的模型超过了基准模型的性能。我们将在此网址上提供源代码。在线演示可在此网址上获得。

Jan, 2024

估计音频-标题对应关系改善基于语言的音频检索

本研究解决了音频检索系统中，由于仅使用匹配的音频-标题对，导致的语义匹配不足的问题。提出了一种两阶段的训练方法，通过利用预测的音频-标题对应关系来改进模型的表现。研究结果表明，该方法在ClothoV2基准上，比当前最优技术提高了1.6个百分点的检索性能。

Aug, 2024

EnCLAP++：优化自动音频字幕性能的EnCLAP框架分析

本研究针对自动音频字幕生成领域的EnCLAP框架，探讨了声学编码器组件的修改、不同数据集规模的预训练以及重排序方案的有效性。通过广泛实验和定量分析，提出了EnCLAP++版本，其性能显著优于原始模型。

Sep, 2024