只需缩放和平移

Jun, 2024

Zoom and Shift are All You Need

Jiahao Qin

TL;DR通过特征对齐的方法，在联合特征空间中通过模态之间的特征迁移和特征扩展实现了多模态信息的完全整合，从而可靠地捕获来自不同模态的特征之间的高级相互作用，并在多模态学习性能上取得了显著的提升。对包含时间序列、图像和文本的多模态数据集进行了广泛的实验评估，证明了我们的方法在性能上超越了其他流行的多模态融合方案，达到了最先进的水平。

Abstract

feature alignment serves as the primary mechanism for fusing multimodal data. We put forth a feature alignment approach that achieves full

feature alignment multimodal data fusion interplay multimodal learning

发现论文，激发创造

替代性伸缩位移测量：一种高效的多模态对齐方法

提出了一种特征对齐方法，该方法完全融合了多模态信息，可以稳健地捕捉不同模态特征之间的高级交互作用，从而显著提高多模态学习的性能，实验评估结果表明该方法达到了最先进的性能水平。

Jun, 2023

使用不对称多层融合学习深层次多模态特征表示

本文介绍了一种有效的多模态特征融合框架，其中采用了两种创新的融合方案，可在一个共享的单一网络中学习多模态特征，并引入两个非对称融合操作，以增强跨通道的多模态特征交互并增强通道内的空间特征区分能力。实验结果表明，本文提出的框架在语义分割和图像翻译任务中表现优异。

Aug, 2021

使用表示编码书进行多模态对齐

该研究论文提出了一种基于聚类表示学习的多模态信号对齐方法，使用字典聚类编码将图像和文本编码到一个共同的编码空间中，并采用师生蒸馏的方法进一步优化学习过程，在多种视觉语言基准测试中取得了最新的最佳结果。

Feb, 2022

如何通过对齐优化多模态数据

研究多模态数据，重要的因素是了解各个模态之间的关系和相互作用，通过对齐各个模态数据可以提高预测质量、跨模态查询以及解决模型解释性问题。通过分析德国议员如何对待极右派 AfD 成员的演讲，以及在 2020 年美国总统竞选中预测视频广告的气氛，我们对有效分析多模态数据提供了重要见解。

May, 2024

多模态推荐的对齐和训练框架

通过系统调查多模态推荐中的对齐问题，本文提出了一种名为 AlignRec 的解决方案，由内容内部对齐、内容与分类 ID 之间的对齐，以及用户与项目之间的对齐这三个目标函数组成，将其融入到我们的多模态推荐框架中，并通过实验证明了 AlignRec 相对于其他九种基线方法的优越性。

Mar, 2024

超越第一印象：整合多模态联合线索用于全面的 3D 表示

通过引入多视图联合模态建模方法，该研究论文提出了一种名为 JM3D 的新方法，以解决 3D 表示学习中的信息降解和不足协同问题，并在零样本 3D 分类任务上取得了领先于现有方法的性能。

Aug, 2023

从特征和样本的视角重新思考视频问答中的多模态对齐

本论文提出一种基于多模态对齐、轨迹特征、层次化框架和训练数据扩充的视频问答方法，并在 NExT-QA 基准测试上表现出很高的性能。

Apr, 2022

关于图像对于视觉增强关系抽取作用的分析

本研究对视觉场景图的不准确信息对多模态关系提取的影响进行了分析，提出了一种基于 Transformer 的隐式精细多模态对齐的强基准方法，并通过实验表明了该方法的优越性。

Nov, 2022

见听阅：深度对齐表示

利用大规模、同步的数据，我们进行了深度判别式表示学习，在三个主要的自然模态中共享学习。我们的实验表明，这种表示对于跨模态检索或在模态之间转移分类器非常有用。此外，我们的网络虽然只是采用图像 + 文本和图像 + 声音对进行训练，但也可以在文本和声音之间进行转移学习，这在训练期间网络从未观察到。我们的表征的可视化揭示了许多隐藏的单元，这些单元自动出现来检测概念，独立于模态。

Jun, 2017

双重对比损失的多模态摘要生成：Align and Attend

介绍了一种基于 transformer 的模型：Align and Attend Multimodal Summarization (A2Summ)，可以处理不同模态的输入。作者提出了两种新的对比损失函数来建模不同样本间的相互关系和内部关系。在常用的四个数据集上，A2Summ 的性能均优于之前的方法。此外，作者还公开了一个数据集：BLiSS，包含直播视频和带有注释的摘要。

Mar, 2023