EnCLAP++：优化自动音频字幕性能的EnCLAP框架分析

Sep, 2024

EnCLAP++：优化自动音频字幕性能的EnCLAP框架分析

EnCLAP++: Analyzing the EnCLAP Framework for Optimizing Automated Audio Captioning Performance

Jaeyeon Kim, Minjeon Jeon, Jaeyoon Jung, Sang Hoon Woo, Jinjoo Lee

TL;DR本研究针对自动音频字幕生成领域的EnCLAP框架，探讨了声学编码器组件的修改、不同数据集规模的预训练以及重排序方案的有效性。通过广泛实验和定量分析，提出了EnCLAP++版本，其性能显著优于原始模型。

Abstract

In this work, we aim to analyze and optimize the EnCLAP Framework, a state-of-the-art model in Automated Audio Captioning. We investigate the impact of modifying the →

发现论文，激发创造

WavCaps: 基于 ChatGPT 辅助的弱标注音频字幕数据集，用于音频-语言多模态研究

本文介绍了 WavCaps 音频字幕数据集的构建方法，结合 ChatGPT 模型处理嘈杂的原始描述，最终得到了一个高质量的数据集。该数据集应用在多个音频-语言多模态学习任务中，取得了较大的进展。

Mar, 2023

利用PaSST和大量音频标题数据集推进基于自然语言的音频检索

该研究针对预先训练的文本和频谱图变换器，提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在2023年的DCASE挑战中排名第一，在ClothoV2基准测试中的表现优于当前的最新技术，提高了5.6个百分点的mAP@10。

Aug, 2023

RECAP：检索增强音频字幕

RECAP是一种新颖有效的音频字幕系统，通过从数据存储中检索与输入音频类似的其他字幕来生成字幕，并且无需额外的微调即可适用于任何领域。

Sep, 2023

音频-语言表示学习的大规模数据集

我们提出了一种基于公共工具或API的创新型自动音频说明生成流程，并构建了一个大规模、高质量的音频语言数据集Auto-ACD，其中包含超过190万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务（包括音频语言检索、音频说明和环境分类）上的性能改进，证明了所提出数据集的有效性。此外，我们建立了一个新颖的测试集，并为音频文本任务提供了一个基准。该数据集将在此https URL上发布。

Sep, 2023

tinyCLAP：压缩对比式语音-文本预训练模型

研究通过减少数据和计算复杂性来降低对比性语言音频预训练模型的复杂性，得到一个高效模型——tinyCLAP，该模型仅使用原Microsoft CLAP参数的6％，在测试的三个声音事件检测数据集上，零样本分类性能仅降低不到5％。

Nov, 2023

EnCLAP：基于神经音频编解码器和音频文本联合嵌入的自动音频字幕生成

我们提出了一种自动音频字幕的新框架EnCLAP，使用了两个声学表示模型EnCodec和CLAP以及一个预训练语言模型BART。我们还引入了一种称为masked codec modeling的新训练目标，提高了预训练语言模型的声学感知能力。在AudioCaps和Clotho上的实验结果表明，我们的模型超过了基准模型的性能。我们将在此网址上提供源代码。在线演示可在此网址上获得。

Jan, 2024

通过优化音频编码增强基于大型语言模型的自动音频字幕生成

增强自动音频字幕生成的方法通过预训练音频编码器、查询变换器和大语言模型，改善了音频标记的准确性和结果性能。

Jun, 2024

AudioBench：一个音频大语言模型通用基准测试

通过提供相关数据集和评估指标，我们引入了AudioBench，这是一个旨在评估语音大型语言模型（AudioLLMs）的新基准。我们在研究中评估了四个模型的能力，并发现没有单一模型在所有任务中都表现出色。我们概述了AudioLLMs的研究展望，并预计我们的开源代码、数据和排行榜将为未来模型发展提供一个强大的测试平台。

Jun, 2024

AVCap: 借助音频-视觉特征作为文本令牌进行字幕生成

最近几年，表征学习和语言模型的进展推动了自动字幕（AC）技术的发展，使得生成人类级别的描述成为可能。利用这些进展，我们提出了AVCap，一种音频视觉字幕框架，是一种简单但功能强大的基准方法，适用于音频视觉字幕。AVCap通过将音频视觉特征作为文本标记来进行设计，这不仅在性能上有很多优势，也在模型的可扩展性和可伸缩性方面有所表现。AVCap围绕着三个关键维度进行设计：最佳音频视觉编码器架构的探索、根据生成文本的特征调整预训练模型的自适应性，以及调查融合模态在字幕生成中的有效性。我们的方法在所有指标上均优于现有的音频视觉字幕方法，相关代码可在此https URL中获得。

Jul, 2024

基于辅助检索模型扩展EnCLAP的自动音频字幕生成

本文解决了自动音频字幕生成和基于语言的音频检索中的研究空白。我们在EnCLAP框架的基础上，优化了任务6的音频字幕生成，并提出了补充的检索模型用于任务8。研究表明，我们的方法在任务6和任务8中显著超过了基线模型，具有重要的应用价值。

Sep, 2024