估计音频-标题对应关系改善基于语言的音频检索

Aug, 2024

估计音频-标题对应关系改善基于语言的音频检索

Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval

Paul Primus, Florian Schmid, Gerhard Widmer

TL;DR本研究解决了音频检索系统中，由于仅使用匹配的音频-标题对，导致的语义匹配不足的问题。提出了一种两阶段的训练方法，通过利用预测的音频-标题对应关系来改进模型的表现。研究结果表明，该方法在ClothoV2基准上，比当前最优技术提高了1.6个百分点的检索性能。

Abstract

Dual-encoder-based Audio Retrieval systems are commonly optimized with Contrastive Learning on a set of matching and mismatching audio-caption pairs. This leads to a shared embedding space in which corresponding

发现论文，激发创造

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在Flickr8k音频字幕语料库上实现了最新的结果。

Sep, 2019

自动音频字幕和基于语言的音频检索

参加了 DCASE 2022 比赛的两个子任务：自动音频字幕和基于语言的音频检索。在 Clotho 数据集上评估使用多种评估指标的基线模型和一些实验，分别对音频字幕和语音检索任务的最终表现进行了改进。

Jul, 2022

使用WavText5K和CLAP训练进行音频检索

本文提出了一个新的Web音频文本检索框架，使用文本编码器、两个音频编码器和对比学习目标来实现语言和音频内容间的连接，包括多个数据集的使用，取得了相对于AudioCaps和Clotho在文本-音频检索上2％和16％的提高，对于音频-文本检索上的6％和23％的提高。

Sep, 2022

文本和语音嵌入匹配:探索基于迁移学习的语音检索策略

本文研究了预训练的深度学习模型在跨模态（文字到音频）检索中的应用，使用浅层神经网络将提取的嵌入映射到公共维度，并探究优化模型的先前培训方法和损失函数选择的重要性。

Oct, 2022

利用PaSST和大量音频标题数据集推进基于自然语言的音频检索

该研究针对预先训练的文本和频谱图变换器，提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在2023年的DCASE挑战中排名第一，在ClothoV2基准测试中的表现优于当前的最新技术，提高了5.6个百分点的mAP@10。

Aug, 2023

一石二鸟：音频字幕系统是否也可用于音频文本检索？

通过探索未经微调的AAC系统，该研究调查了AAC和ATR之间的关系，发现使用标准的Cross-Entropy损失值可以实现良好的ATR性能。

Aug, 2023

音频差异学习用于音频字幕

该研究介绍了一种新颖的训练范式，音频差异学习，用于改进音频字幕生成。该方法通过创建一个保留音频关系的特征表示空间，能够生成详细描绘复杂音频信息的字幕。实验证明，该方法在Clotho和ESC50数据集上，相较传统方法，SPIDEr分数提高了7%。

Sep, 2023

RECAP：检索增强音频字幕

RECAP是一种新颖有效的音频字幕系统，通过从数据存储中检索与输入音频类似的其他字幕来生成字幕，并且无需额外的微调即可适用于任何领域。

Sep, 2023

基于文本-only 训练实现的弱监督自动音频字幕生成

近年来，通过对成对音频和字幕进行数据集的研究，自动生成音频剪辑的描述取得了显著的成功，即自动音频字幕生成（AAC）。然而，收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练（CLAP）最新进展的启发，我们提出了一种弱监督方法来训练AAC模型，只需要文本数据和经过预训练的CLAP模型，从而减轻了对配对目标数据的需求。我们的方法利用CLAP中音频和文本嵌入之间的相似性。在训练过程中，我们学习从CLAP文本嵌入中重构文本，在推断过程中，我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距，我们采用了在训练和推断阶段桥接差距的策略。我们在Clotho和AudioCaps数据集上评估了我们提出的方法，证明其相对于使用配对目标数据训练的完全监督方法可达到高达83%的性能水平。

Sep, 2023

基于辅助检索模型扩展EnCLAP的自动音频字幕生成

本文解决了自动音频字幕生成和基于语言的音频检索中的研究空白。我们在EnCLAP框架的基础上，优化了任务6的音频字幕生成，并提出了补充的检索模型用于任务8。研究表明，我们的方法在任务6和任务8中显著超过了基线模型，具有重要的应用价值。

Sep, 2024