利用文本条件特征对齐进行音频增强的文本到视频检索

Jul, 2023

利用文本条件特征对齐进行音频增强的文本到视频检索

Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment

Sarah Ibrahimi, Xiaohang Sun, Pichao Wang, Amanmeet Garg, Ashutosh Sanan...

TL;DR通过引入 TEFAL 方法，利用跨模态注意力机制实现了文本查询条件下的音频和视频表示，从而提高了文本到视频检索任务的性能。

Abstract

text-to-video retrieval systems have recently made significant progress by utilizing pre-trained models trained on large-scale image-text pairs. However, most of the latest methods primarily focus on the video modality while disregarding the audio signal for this task. Nevertheless, a

text-to-video retrieval audiovisual video representation tefal cross-modal attention complementary information

发现论文，激发创造

通过文本到视频模型的调整实现多样和一致的音视频生成

生成多样化和逼真的视频，根据语义类别广泛的自然音频样本进行引导。采用了基于轻量级适配器网络的方法，将音频基础表示映射到文本 - 视频生成模型所期望的输入表示，实现了对文本、音频以及文本和音频的生成视频。在三个数据集上验证了该方法，展示了生成的音频视频样本的显著语义多样性，并提出了一种新的评估度量（AV-Align）以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比，我们的方法生成的视频在内容和时间轴上都与输入音频更好地对齐，并且呈现更高的视觉质量和多样性。

Sep, 2023

视频同步的文本到语音生成

近期，研究人员在文本转语音生成方面的关注度不断增加，本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV，通过整合视觉对齐的文本嵌入到生成模型中，通过时间多头注意力转换器从视频数据中提取和理解时间细微差异，并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合，进一步增强集成性，以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估，T2AV 在视觉对齐和时间一致性上设立了新的标准。

Mar, 2024

上下文中的音频文本检索

本文通过使用音频特征和序列聚合方法来提高音频 - 文本对齐的准确性，并观察到在上下文检索中，语义映射比时间关系重要。结果表明，该系统在所有指标上均显著提高了双向音频文本检索。

Mar, 2022

ECLIPSE: 利用视听进行高效长距离视频检索

我们引入了一种音视频结合的文本到视频检索方法，称为 ECLIPSE，该方法通过将动态音频事件与视频的补充提示统一编码来适应长范围视频，提高了检索准确性降低了计算成本。

Apr, 2022

使用 WavText5K 和 CLAP 训练进行音频检索

本文提出了一个新的 Web 音频文本检索框架，使用文本编码器、两个音频编码器和对比学习目标来实现语言和音频内容间的连接，包括多个数据集的使用，取得了相对于 AudioCaps 和 Clotho 在文本 - 音频检索上 2％和 16％的提高，对于音频 - 文本检索上的 6％和 23％的提高。

Sep, 2022

音频 - 文本检索中的语言沟通

通过使用多语言文本编码器编码文本数据，结合一致集成蒸馏优化音频编码器，我们的方法在英语语音文本检索方面表现出最先进的性能，并且仅使用额外的 10％的语言增强训练数据，也能有效检索其他七种语言的内容。

Jun, 2024

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

标签对齐前的多模式标签集成视频文本检索

本文提出了一种用于视频 - 文本检索的 TABLE（标记前对齐）网络，该网络通过标记将多模态信息显式地集成在一起，并在视觉编码器、标记编码器、文本编码器和带有标记引导的跨模态编码器的联合编码下，使用预训练的多模态专家从多模态中提取信息。实验表明，TABLE 模型在 MSR-VTT、MSVD、LSMDC 和 DiDeMo 等多个视频 - 文本检索基准中表现出了最先进的性能。

Jan, 2023

视频银行：融合和解耦增强跨模态生成

该研究提出了一种名为 Video-Teller 的视频语言基础模型，通过多模态融合和细粒度模态对齐来显著增强视频到文本生成任务。实验结果表明，该模型在准确理解视频和生成连贯且精确的语言描述方面取得了显著效果。

Oct, 2023

通过视觉知识转移在无平行数据的情况下，连接音频和文本之间的关联

提出了一种称为 VIP-ANT 的模型，实现了音频文本无对齐数据的自动对齐，应用在零 - shot 音频分类和字幕检索任务中取得了良好的性能，甚至超越了更传统的监督学习模型。同时也发现，虽然仅需一些监督数据就可以提高性能，但达到人类水平仍然需要更大规模的数据。

Dec, 2021