自动音频字幕和基于语言的音频检索

Jul, 2022

自动音频字幕和基于语言的音频检索

Automated Audio Captioning and Language-Based Audio Retrieval

Clive Gomes, Hyejin Park, Patrick Kollman, Yi Song

TL;DR参加了 DCASE 2022 比赛的两个子任务：自动音频字幕和基于语言的音频检索。在 Clotho 数据集上评估使用多种评估指标的基线模型和一些实验，分别对音频字幕和语音检索任务的最终表现进行了改进。

Abstract

This project involved participation in the dcase 2022 competition (Task 6) which had two subtasks: (1) automated audio captioning and (2) Language-Based Audio Retrieval. The first subtask involved the generation

dcase 2022 competition automated audio captioning language-based audio retrieval clotho dataset model performance

发现论文，激发创造

利用 PaSST 和大量音频标题数据集推进基于自然语言的音频检索

该研究针对预先训练的文本和频谱图变换器，提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在 2023 年的 DCASE 挑战中排名第一，在 ClothoV2 基准测试中的表现优于当前的最新技术，提高了 5.6 个百分点的 mAP@10。

Aug, 2023

基于语言的音频检索：收敛绑定层和对比损失

本文介绍了一种简单，可扩展的架构，将语音和文本编码器结合在一起，并使用对比损失来显著提高基线模型的性能。通过使用预训练模型，无需微调即可在极低的训练内存要求下实现优异的语音检索表现。实验结果表明，采用我们的方法组合可以显著提高基线分数。

Jun, 2022

使用自然语言查询的音频检索：基准研究

本研究提出了三个新的跨模态检索基准，用于研究现有文献中关注度较低的文本 — 音频和音频 — 文本检索任务。研究团队通过不同音频任务的预训练，在这三个基准上建立了交叉模态文本 — 音频和音频 — 文本检索的基线，并公开了数据集和代码，希望这些基准能够激发有关自由文本查询的音频检索的研究。

Dec, 2021

NTT DCASE2020 Challenge Task 6 系统：使用关键字和句子长度估计的自动音频字幕

该报告介绍参加 DCASE 2020 挑战 Task 6 的系统，侧重于使用多任务学习解决自动音频字幕生成中的不确定性问题，并通过在开发测试数据集上测试简化模型，实现了 20.7 的 SPIDEr 得分，远高于基线系统的 5.4。

Jul, 2020

使用自然语言查询的音频检索

本研究介绍了新的基准，使用自由形式的自然语言查询中的文本注释，旨在研究文本查询的语音检索问题，同时探讨跨模态音频检索的优势和基准，以及优化方法。

May, 2021

RECAP：检索增强音频字幕

RECAP 是一种新颖有效的音频字幕系统，通过从数据存储中检索与输入音频类似的其他字幕来生成字幕，并且无需额外的微调即可适用于任何领域。

Sep, 2023

自动音频字幕生成：近期进展与新挑战概述

本文综述了自动音频字幕生成领域内的研究现状，包括使用的深度学习技术、网络架构、评估指标和挑战，同时讨论了未来的研究方向。

May, 2022

音频 - 文本检索中的语言沟通

通过使用多语言文本编码器编码文本数据，结合一致集成蒸馏优化音频编码器，我们的方法在英语语音文本检索方面表现出最先进的性能，并且仅使用额外的 10％的语言增强训练数据，也能有效检索其他七种语言的内容。

Jun, 2024

上下文中的音频文本检索

本文通过使用音频特征和序列聚合方法来提高音频 - 文本对齐的准确性，并观察到在上下文检索中，语义映射比时间关系重要。结果表明，该系统在所有指标上均显著提高了双向音频文本检索。

Mar, 2022

使用 WavText5K 和 CLAP 训练进行音频检索

本文提出了一个新的 Web 音频文本检索框架，使用文本编码器、两个音频编码器和对比学习目标来实现语言和音频内容间的连接，包括多个数据集的使用，取得了相对于 AudioCaps 和 Clotho 在文本 - 音频检索上 2％和 16％的提高，对于音频 - 文本检索上的 6％和 23％的提高。

Sep, 2022