TriCoLo: 用于精细文本形状检索的三模态对比损失
本篇研究提出了一种方法,使用特定的 loss 函数,在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同,并改进了基线模型,以实现跨模态检索。
Jul, 2020
通过将对比损失函数扩展到任意数量的模态,本文在社交媒体中探讨三模态空间的实用性,并在两个 OSINT 情景中展示了三模态模型的使用价值:将社交媒体文物帖子分类为亲俄罗斯或亲乌克兰,以及识别给定文物的原始账户。此外,本文还展示了一种新型的四模态 CLIP 模型,可以学习文本、图像、视频和音频之间的相互作用。在四模态模型检索中,展示了新的最先进基准结果。
Mar, 2024
本研究提出了一种名为 TCL 的视觉 - 语言预训练三重对比学习框架,通过交叉模式对齐和内部模态自我监督来提高学习的代表性,并通过最大化图像 / 文本局部区域与全局摘要之间的平均互信息,取得了在图像 - 文本检索和视觉问答等任务中的优异表现。
Feb, 2022
本文提出了一种基于深度卷积神经网络的新颖的跨模态适应模型形成方法,其中采用度量学习和对抗学习方法来对 2D 手绘图和 3D 物体进行信息的迁移和转化,能够有效提高物体检索的结果。
Jul, 2018
通过引入多视图联合模态建模方法,该研究论文提出了一种名为 JM3D 的新方法,以解决 3D 表示学习中的信息降解和不足协同问题,并在零样本 3D 分类任务上取得了领先于现有方法的性能。
Aug, 2023
本文提出了一种基于三角形中心角损失的度量损失方法,在 3D 物体检索任务中,通过优化形状特征之间的余弦距离,从而实现在类内距离较小、类间距离较大的目标,并在 ModelNet40 和 ShapeNetCore 55 等数据集上取得了最新的性能。
Nov, 2018
通过三重解缠绑方法,TriDiRA,从输入数据中解释了模态不变、有效模态特定和无效模态特定的表示,并且通过融合仅模态不变和有效模态特定的表示,可以显著减少模态之间无关和冲突信息对模型训练的影响。在四个基准数据集上进行的大量实验证明了我们三重解缠绑方法的效果和泛化性能优于现有技术。
Jan, 2024
通过 TriAdapter Multi-Modal Learning(TAMM),在多模态预训练中引入了三个协同适配器,以更有效地利用 2D 图像和语言模态,缩小 3D 形状数据集的规模限制,提高对 3D 形状的理解和表示学习。
Feb, 2024
研究中提出了 COM3D 方法,利用跨视图对应和跨模态挖掘来增强检索性能,并通过半硬负样本挖掘优化跨模态匹配过程,取得了 Text2Shape 数据集上最优的结果。
May, 2024