通过跨模态梯度协调扩展多模态预训练

Nov, 2022

通过跨模态梯度协调扩展多模态预训练

Scaling Multimodal Pre-Training via Cross-Modality Gradient Harmonization

Junru Wu, Yi Liang, Feng Han, Hassan Akbari, Zhangyang Wang...

TL;DR本文讨论了跨模态对齐的效果和问题，提出了通过梯度调整和基于梯度的课程学习解决梯度冲突的方法，并将其应用于视频音频文本模态的预训练中以提高性能。

Abstract

Self-supervised pre-training recently demonstrates success on large-scale multimodal data, and state-of-the-art contrastive learning methods often enforce the feature consistency from cross-modality inputs, such as video/audio or video/text pairs. Despite its convenience to formulate a

self-supervised learning multimodal data cross-modality alignment gradient harmonization curriculum learning

发现论文，激发创造

MA-AVT：用于参数高效音频 - 视觉变换器的模态对齐

该论文介绍了一种新的参数高效的视听变压器 MA-AVT，采用深度模态对齐来实现对应的多模态语义特征的对齐，通过联合单模态和多模态令牌学习，引入冻结的模态共享变压器，使模型能够学习到每种模态的独立表示，并关注它们之间的跨模态关系。此外，在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征，并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark AVE、VGGSound 和 CREMA-D 数据集上进行的大量实验，该方法在性能上取得了显著的改进。

Jun, 2024

三重对比学习视觉语言预训练

本研究提出了一种名为 TCL 的视觉 - 语言预训练三重对比学习框架，通过交叉模式对齐和内部模态自我监督来提高学习的代表性，并通过最大化图像 / 文本局部区域与全局摘要之间的平均互信息，取得了在图像 - 文本检索和视觉问答等任务中的优异表现。

Feb, 2022

音视频交叉模态检索中标签空间的完整三元组损失

本文提出了一种新的 AV-CMR 模型，通过直接预测标签并使用完整的交叉三元组损失来优化语义特征，从而优化音频 - 视觉数据之间的内在相关性，解决了模型训练敏感性问题和选取困难问题。在两个音频 - 视觉双重检查数据集上的广泛实验结果表明，与现有的 TNN-CCCA 方法相比，平均 MAP 提高了约 2.1％，验证了我们提出的模型的有效性。

Nov, 2022

M5Product：电商多模态预训练的自协调对比学习

该论文提出了一种基于 E-commerce 的多模态预训练数据集 M5Product 和一种名为 SCALE 的预训练框架，实现了不同模态特征的融合和学习，并在四个下游任务中展示了其优越性，该方法具有重要的数据集规模和多样性。

Sep, 2021

多损失梯度调节改进多模态学习

通过学习多种模态（如音频和视频）可以利用互补信息，提高模型性能，本文提出了一种多损失目标和改进的平衡过程，通过动态调整不同模态的学习速度来实现更好的结果。

May, 2024

远程感知中高效的谐调迁移学习与模态对齐

通过采用 “Harmonized Transfer Learning and Modality Alignment (HarMA)” 方法，本研究在遥感领域中实现了优异的性能，同时最小化了训练开销，通过满足任务约束、模态对齐和单模态统一对齐三个目标，而不需要外部数据进行训练。

Apr, 2024

基于多粒度跨模态对齐的开放词汇语义分割学习

提出了一种多粒度跨模态对齐 (MGCA) 框架，通过在像素级、对象级和区域级学习对齐来解决现有方法在像素级预测和训练时的粒度差异问题，并采用硬采样策略促进精细的跨模态对比学习，进一步开发自适应语义单元来改善像素预测单元在下游分割中的缺陷。在 CC3M 数据集上进行训练后，该方法在性能上显著超过了现有的方法，验证了其有效性和高效性。

Mar, 2024

CMMD：视频 - 音频条件建模的对比多模态扩散

我们介绍了一种多模态扩散模型，专为视频和音频的双向条件生成而设计。通过引入联合对比训练损失来增强视听事件的同步，我们认识到在多模态生成任务中准确对齐视频和音频事件的重要性。我们的研究方法包括对多个数据集进行全面实验，以全面评估我们所提出的模型的有效性。从各个角度进行了生成质量和对齐性能的评估，包括客观和主观指标。我们的研究结果表明，所提出的模型优于基线，证实了它的有效性和效率。特别地，对比损失的引入改善了音视频对齐，特别是在高相关性的视频到音频生成任务中。这些结果表明我们所提出的模型具有改善多模态生成的质量和对齐性的潜力，从而促进了视频和音频条件生成系统的发展。

Dec, 2023

改进基于文本引导的图像修复的跨模态对齐

本研究提出了一种基于视听语言预训练模型和对跨模态对齐知识的改进的跨模态对齐模型的图像修复方法，通过在两个流行的视听语言数据集上的实验表明，该模型相对于其他强竞争对手的性能达到了最佳水平。

Jan, 2023

跨模态提示：为音频 - 视觉下游任务调整大型预训练模型

本论文提出了一种新的双向引导空间 - 通道 - 时间（DG-SCT）注意力机制，通过引入可训练的跨模态交互层，从当前模态跨空间、通道和时间维度自适应地提取关键信息，以解决多模态任务中的特征提取挑战，其结果在多个下游任务中达到最先进水平，并在挑战性的少样本和零样本场景中表现出良好性能。

Nov, 2023