TriCoLo: 用于精细文本形状检索的三模态对比损失

Jan, 2022

TriCoLo: 用于精细文本形状检索的三模态对比损失

TriCoLo: Trimodal Contrastive Loss for Fine-grained Text to Shape Retrieval

Yue Ruan, Han-Hung Lee, Ke Zhang, Angel X. Chang

TL;DR本文采用大批量对比学习的方法，提高不同模态数据的联合嵌入效果，实现超越先前文献的文本形状检索；同时，提出了三模态学习方案以更好地表示所有模态。

Abstract

Recent work on contrastive losses for learning joint embeddings over multimodal data has been successful at downstream tasks such as retrieval and classification. On the other hand, work on →

contrastive losses multimodal data joint representation learning text-shape retrieval trimodal learning

发现论文，激发创造

保持语义领域对稳健跨模态检索的影响

本篇研究提出了一种方法，使用特定的 loss 函数，在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同，并改进了基线模型，以实现跨模态检索。

Jul, 2020

社交媒体数据的 N 模态对比损失及其在三模空间中的应用

通过将对比损失函数扩展到任意数量的模态，本文在社交媒体中探讨三模态空间的实用性，并在两个 OSINT 情景中展示了三模态模型的使用价值：将社交媒体文物帖子分类为亲俄罗斯或亲乌克兰，以及识别给定文物的原始账户。此外，本文还展示了一种新型的四模态 CLIP 模型，可以学习文本、图像、视频和音频之间的相互作用。在四模态模型检索中，展示了新的最先进基准结果。

Mar, 2024

三重对比学习视觉语言预训练

本研究提出了一种名为 TCL 的视觉 - 语言预训练三重对比学习框架，通过交叉模式对齐和内部模态自我监督来提高学习的代表性，并通过最大化图像 / 文本局部区域与全局摘要之间的平均互信息，取得了在图像 - 文本检索和视觉问答等任务中的优异表现。

Feb, 2022

多模式表示学习中潜在模态结构的理解与构建

我们提出了三种构建潜在模态结构的通用方法，涵盖了深度特征分离，布朗桥损失和几何一致性损失，通过广泛的实验在多个任务上获得一贯的性能提升。

Mar, 2023

通过保留语义的对抗学习进行深度跨模态适应，用于基于素描的 3D 形状检索

本文提出了一种基于深度卷积神经网络的新颖的跨模态适应模型形成方法，其中采用度量学习和对抗学习方法来对 2D 手绘图和 3D 物体进行信息的迁移和转化，能够有效提高物体检索的结果。

Jul, 2018

超越第一印象：整合多模态联合线索用于全面的 3D 表示

通过引入多视图联合模态建模方法，该研究论文提出了一种名为 JM3D 的新方法，以解决 3D 表示学习中的信息降解和不足协同问题，并在零样本 3D 分类任务上取得了领先于现有方法的性能。

Aug, 2023

多视角三维形状检索的 Angular Triplet-Center Loss

本文提出了一种基于三角形中心角损失的度量损失方法，在 3D 物体检索任务中，通过优化形状特征之间的余弦距离，从而实现在类内距离较小、类间距离较大的目标，并在 ModelNet40 和 ShapeNetCore 55 等数据集上取得了最新的性能。

Nov, 2018

多模态情感分析的三重解耦表示学习

通过三重解缠绑方法，TriDiRA，从输入数据中解释了模态不变、有效模态特定和无效模态特定的表示，并且通过融合仅模态不变和有效模态特定的表示，可以显著减少模态之间无关和冲突信息对模型训练的影响。在四个基准数据集上进行的大量实验证明了我们三重解缠绑方法的效果和泛化性能优于现有技术。

Jan, 2024

TAMM：三适配器多模态学习用于 3D 形状理解

通过 TriAdapter Multi-Modal Learning（TAMM），在多模态预训练中引入了三个协同适配器，以更有效地利用 2D 图像和语言模态，缩小 3D 形状数据集的规模限制，提高对 3D 形状的理解和表示学习。

Feb, 2024

COM3D: 跨视图对应和跨模态挖掘在 3D 检索中的应用

研究中提出了 COM3D 方法，利用跨视图对应和跨模态挖掘来增强检索性能，并通过半硬负样本挖掘优化跨模态匹配过程，取得了 Text2Shape 数据集上最优的结果。

May, 2024