跨模态提示:为音频 - 视觉下游任务调整大型预训练模型
该论文介绍了一种新的参数高效的视听变压器 MA-AVT,采用深度模态对齐来实现对应的多模态语义特征的对齐,通过联合单模态和多模态令牌学习,引入冻结的模态共享变压器,使模型能够学习到每种模态的独立表示,并关注它们之间的跨模态关系。此外,在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征,并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark AVE、VGGSound 和 CREMA-D 数据集上进行的大量实验,该方法在性能上取得了显著的改进。
Jun, 2024
通过 AVSD 挑战,本文提出了一种层次化编码 - 解码模型来回答有关视频的问题,采用预训练的 I3D 和 VGGish 模型计算视频及音频帧的语义特征,并使用 FiLM 块进行条件编码以降低维数,最终使用 LSTM 解码器通过计划采样进行训练和束搜索进行评估,相比于 AVSD 挑战组织者发布的模态融合基准模型,我们的模型实现了超过 16%的相对改善,得分为 0.36 BLEU -4,超过 33%的得分为 0.997 CIDEr。
Dec, 2018
本文介绍了一种基于多模态深度共生的 Prompt Tuning 方法,通过学习一个模型无关的变换网络,实现了深度的双向自然语言和视觉信息融合,在图像识别和领域外泛化方面表现优异。
Jun, 2023
AVSepChain 是一种多模态学习方法,通过将音频 - 视觉目标语音提取任务分为两个阶段(语音感知和语音产生),改善了模态不平衡的问题,并引入了对比语义匹配损失函数来确保生成的语音与语音产生阶段的唇部运动所传达的语义信息一致,实验结果表明该方法在多个基准数据集上具有卓越的性能。
Apr, 2024
使用点积注意力结合文本和非文本特征的输入视频信息以及采用多源序列的指针网络来增强生成对话代理能力,从而在自动度量中取得高性能,在人类评估中获得第五和第六名。
Feb, 2020
本研究提出了 Aurora,一个优美的提示框架,用于跨模态传递,以解决模型复杂性和模态对齐问题。在六个跨模态下游基准测试中, Aurora 不仅优于最先进的方法,甚至优于完全微调方法。
May, 2023
这篇论文探索了利用大规模预训练的多个文本编码器设计的算法,提出了一种新颖的综合蒸馏方法 TeachText,并将其拓展应用到视频检索上,在多个视频检索基准上超过了现有技术,而且在测试时不会增加计算负荷。
Apr, 2021
我们提出了一个跨模态的动态提示调整方法,使用全局 - 局部注意机制对视频进行建模,通过仅调整 0.67%的参数,我们的方法在 MSR-VTT,VATEX,LSMDC 和 ActivityNet 数据集上优于或与完全微调方法相当。
Jan, 2024
该研究提出了一种通用的多模态转换器,并引入了多任务学习的方法,以解决视频聊天中的音视频场景感知对话生成任务,并将自然语言生成预训练模型扩展到多模态对话生成任务。我们的系统在该挑战中取得了最佳表现。
Feb, 2020
该研究提出了一种多模态和时间交叉注意力框架,可以利用音频和视觉信息的自然语义和时间对齐关系来实现音频 - 视觉广义零样本学习,并在多个基准测试中取得了最先进的性能。
Jul, 2022