EnCLAP++:优化自动音频字幕性能的EnCLAP框架分析
本文介绍了 WavCaps 音频字幕数据集的构建方法,结合 ChatGPT 模型处理嘈杂的原始描述,最终得到了一个高质量的数据集。该数据集应用在多个音频-语言多模态学习任务中,取得了较大的进展。
Mar, 2023
该研究针对预先训练的文本和频谱图变换器,提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在2023年的DCASE挑战中排名第一,在ClothoV2基准测试中的表现优于当前的最新技术,提高了5.6个百分点的mAP@10。
Aug, 2023
我们提出了一种基于公共工具或API的创新型自动音频说明生成流程,并构建了一个大规模、高质量的音频语言数据集Auto-ACD,其中包含超过190万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务(包括音频语言检索、音频说明和环境分类)上的性能改进,证明了所提出数据集的有效性。此外,我们建立了一个新颖的测试集,并为音频文本任务提供了一个基准。该数据集将在此https URL上发布。
Sep, 2023
研究通过减少数据和计算复杂性来降低对比性语言音频预训练模型的复杂性,得到一个高效模型——tinyCLAP,该模型仅使用原Microsoft CLAP参数的6%,在测试的三个声音事件检测数据集上,零样本分类性能仅降低不到5%。
Nov, 2023
我们提出了一种自动音频字幕的新框架EnCLAP,使用了两个声学表示模型EnCodec和CLAP以及一个预训练语言模型BART。我们还引入了一种称为masked codec modeling的新训练目标,提高了预训练语言模型的声学感知能力。在AudioCaps和Clotho上的实验结果表明,我们的模型超过了基准模型的性能。我们将在此网址上提供源代码。在线演示可在此网址上获得。
Jan, 2024
通过提供相关数据集和评估指标,我们引入了AudioBench,这是一个旨在评估语音大型语言模型(AudioLLMs)的新基准。我们在研究中评估了四个模型的能力,并发现没有单一模型在所有任务中都表现出色。我们概述了AudioLLMs的研究展望,并预计我们的开源代码、数据和排行榜将为未来模型发展提供一个强大的测试平台。
Jun, 2024
最近几年,表征学习和语言模型的进展推动了自动字幕(AC)技术的发展,使得生成人类级别的描述成为可能。利用这些进展,我们提出了AVCap,一种音频视觉字幕框架,是一种简单但功能强大的基准方法,适用于音频视觉字幕。AVCap通过将音频视觉特征作为文本标记来进行设计,这不仅在性能上有很多优势,也在模型的可扩展性和可伸缩性方面有所表现。AVCap围绕着三个关键维度进行设计:最佳音频视觉编码器架构的探索、根据生成文本的特征调整预训练模型的自适应性,以及调查融合模态在字幕生成中的有效性。我们的方法在所有指标上均优于现有的音频视觉字幕方法,相关代码可在此https URL中获得。
Jul, 2024
本文解决了自动音频字幕生成和基于语言的音频检索中的研究空白。我们在EnCLAP框架的基础上,优化了任务6的音频字幕生成,并提出了补充的检索模型用于任务8。研究表明,我们的方法在任务6和任务8中显著超过了基线模型,具有重要的应用价值。
Sep, 2024