跨模态提示：为音频 - 视觉下游任务调整大型预训练模型

Nov, 2023

跨模态提示：为音频 - 视觉下游任务调整大型预训练模型

Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks

Haoyi Duan, Yan Xia, Mingze Zhou, Li Tang, Jieming Zhu...

TL;DR本论文提出了一种新的双向引导空间 - 通道 - 时间（DG-SCT）注意力机制，通过引入可训练的跨模态交互层，从当前模态跨空间、通道和时间维度自适应地提取关键信息，以解决多模态任务中的特征提取挑战，其结果在多个下游任务中达到最先进水平，并在挑战性的少样本和零样本场景中表现出良好性能。

Abstract

In recent years, the deployment of large-scale pre-trained models in audio-visual downstream tasks has yielded remarkable outcomes. However, these models, primarily trained on single-modality unconstrained datasets, still encounter challenges in →

multi-modal tasks feature extraction dual-guided spatial-channel-temporal attention mechanism cross-modal interaction layers downstream tasks

发现论文，激发创造

MA-AVT：用于参数高效音频 - 视觉变换器的模态对齐

该论文介绍了一种新的参数高效的视听变压器 MA-AVT，采用深度模态对齐来实现对应的多模态语义特征的对齐，通过联合单模态和多模态令牌学习，引入冻结的模态共享变压器，使模型能够学习到每种模态的独立表示，并关注它们之间的跨模态关系。此外，在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征，并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark AVE、VGGSound 和 CREMA-D 数据集上进行的大量实验，该方法在性能上取得了显著的改进。

Jun, 2024

从 FiLM 到视频：多模态背景下的多轮问答

通过 AVSD 挑战，本文提出了一种层次化编码 - 解码模型来回答有关视频的问题，采用预训练的 I3D 和 VGGish 模型计算视频及音频帧的语义特征，并使用 FiLM 块进行条件编码以降低维数，最终使用 LSTM 解码器通过计划采样进行训练和束搜索进行评估，相比于 AVSD 挑战组织者发布的模态融合基准模型，我们的模型实现了超过 16％的相对改善，得分为 0.36 BLEU -4，超过 33％的得分为 0.997 CIDEr。

Dec, 2018

MuDPT: 针对大型预训练视觉语言模型的多模式深层联合调整

本文介绍了一种基于多模态深度共生的 Prompt Tuning 方法，通过学习一个模型无关的变换网络，实现了深度的双向自然语言和视觉信息融合，在图像识别和领域外泛化方面表现优异。

Jun, 2023

音频 - 视觉交叉模态条件语音提取中的分离

AVSepChain 是一种多模态学习方法，通过将音频 - 视觉目标语音提取任务分为两个阶段（语音感知和语音产生），改善了模态不平衡的问题，并引入了对比语义匹配损失函数来确保生成的语音与语音产生阶段的唇部运动所传达的语义信息一致，实验结果表明该方法在多个基准数据集上具有卓越的性能。

Apr, 2024

DSTC8 AVSD 挑战赛的多模态指针网络 Transformer

使用点积注意力结合文本和非文本特征的输入视频信息以及采用多源序列的指针网络来增强生成对话代理能力，从而在自动度量中取得高性能，在人类评估中获得第五和第六名。

Feb, 2020

模式逼近生成优秀的视觉语言提示

本研究提出了 Aurora，一个优美的提示框架，用于跨模态传递，以解决模型复杂性和模态对齐问题。在六个跨模态下游基准测试中， Aurora 不仅优于最先进的方法，甚至优于完全微调方法。

May, 2023

跨模态通用蒸馏方法用于文本 - 视频检索

这篇论文探索了利用大规模预训练的多个文本编码器设计的算法，提出了一种新颖的综合蒸馏方法 TeachText，并将其拓展应用到视频检索上，在多个视频检索基准上超过了现有技术，而且在测试时不会增加计算负荷。

Apr, 2021

DGL: 文本 - 视频检索的动态全局 - 局部提示调优

我们提出了一个跨模态的动态提示调整方法，使用全局 - 局部注意机制对视频进行建模，通过仅调整 0.67％的参数，我们的方法在 MSR-VTT，VATEX，LSMDC 和 ActivityNet 数据集上优于或与完全微调方法相当。

Jan, 2024

文本和视频的桥梁：用于视频音频场景感知对话的通用多模态 Transformer

该研究提出了一种通用的多模态转换器，并引入了多任务学习的方法，以解决视频聊天中的音视频场景感知对话生成任务，并将自然语言生成预训练模型扩展到多模态对话生成任务。我们的系统在该挑战中取得了最佳表现。

Feb, 2020

音视频零样本学习的时间和跨模态注意力

该研究提出了一种多模态和时间交叉注意力框架，可以利用音频和视觉信息的自然语义和时间对齐关系来实现音频 - 视觉广义零样本学习，并在多个基准测试中取得了最先进的性能。

Jul, 2022