提出了一种特征对齐方法,该方法完全融合了多模态信息,可以稳健地捕捉不同模态特征之间的高级交互作用,从而显著提高多模态学习的性能,实验评估结果表明该方法达到了最先进的性能水平。
Jun, 2023
本文介绍了一种有效的多模态特征融合框架,其中采用了两种创新的融合方案,可在一个共享的单一网络中学习多模态特征,并引入两个非对称融合操作,以增强跨通道的多模态特征交互并增强通道内的空间特征区分能力。实验结果表明,本文提出的框架在语义分割和图像翻译任务中表现优异。
Aug, 2021
该研究论文提出了一种基于聚类表示学习的多模态信号对齐方法,使用字典聚类编码将图像和文本编码到一个共同的编码空间中,并采用师生蒸馏的方法进一步优化学习过程,在多种视觉语言基准测试中取得了最新的最佳结果。
Feb, 2022
研究多模态数据,重要的因素是了解各个模态之间的关系和相互作用,通过对齐各个模态数据可以提高预测质量、跨模态查询以及解决模型解释性问题。通过分析德国议员如何对待极右派 AfD 成员的演讲,以及在 2020 年美国总统竞选中预测视频广告的气氛,我们对有效分析多模态数据提供了重要见解。
May, 2024
通过系统调查多模态推荐中的对齐问题,本文提出了一种名为 AlignRec 的解决方案,由内容内部对齐、内容与分类 ID 之间的对齐,以及用户与项目之间的对齐这三个目标函数组成,将其融入到我们的多模态推荐框架中,并通过实验证明了 AlignRec 相对于其他九种基线方法的优越性。
Mar, 2024
通过引入多视图联合模态建模方法,该研究论文提出了一种名为 JM3D 的新方法,以解决 3D 表示学习中的信息降解和不足协同问题,并在零样本 3D 分类任务上取得了领先于现有方法的性能。
Aug, 2023
本论文提出一种基于多模态对齐、轨迹特征、层次化框架和训练数据扩充的视频问答方法,并在 NExT-QA 基准测试上表现出很高的性能。
Apr, 2022
本研究对视觉场景图的不准确信息对多模态关系提取的影响进行了分析,提出了一种基于 Transformer 的隐式精细多模态对齐的强基准方法,并通过实验表明了该方法的优越性。
Nov, 2022
利用大规模、同步的数据,我们进行了深度判别式表示学习,在三个主要的自然模态中共享学习。我们的实验表明,这种表示对于跨模态检索或在模态之间转移分类器非常有用。此外,我们的网络虽然只是采用图像 + 文本和图像 + 声音对进行训练,但也可以在文本和声音之间进行转移学习,这在训练期间网络从未观察到。我们的表征的可视化揭示了许多隐藏的单元,这些单元自动出现来检测概念,独立于模态。
Jun, 2017
介绍了一种基于 transformer 的模型:Align and Attend Multimodal Summarization (A2Summ),可以处理不同模态的输入。作者提出了两种新的对比损失函数来建模不同样本间的相互关系和内部关系。在常用的四个数据集上,A2Summ 的性能均优于之前的方法。此外,作者还公开了一个数据集:BLiSS,包含直播视频和带有注释的摘要。
Mar, 2023