基于聚类的图像 - 文本图匹配模型桥接领域差距

Oct, 2023

基于聚类的图像 - 文本图匹配模型桥接领域差距

Bridging the Domain Gap by Clustering-based Image-Text Graph Matching

Nokyung Park, Daewon Chae, Jeongyong Shim, Sangpil Kim, Eun-Sol Kim...

TL;DR通过融合图像和文本的多模态图形表示，我们通过考虑图像和文本描述符之间内在的语义结构得到领域不变的关键嵌入，从而实现领域泛化问题中的域不变特征学习。我们的模型在 CUB-DG 和 DomainBed 等大规模公共数据集上实验，取得了与或更好于这些数据集上的最新性能。

Abstract

Learning domain-invariant representations is important to train a model that can generalize well to unseen target task domains. text descriptions inherently contain semantic structures of concepts and such auxili

domain-invariant representations text descriptions multimodal graph representations pivot embeddings domain generalization

发现论文，激发创造

利用文本为视觉表示建立通用领域基础

本文提出了一种基于自然语言监督的跨模态领域泛化方法，利用视觉和文本交互的表征来实现高级别类别判别的信息融合，并使用可解释的模型来生成解释，从而提高模型的泛化能力和性能。作者的方法在多个数据集上均取得了最新领先的结果。

Jul, 2022

学习鲁棒的视觉 - 语义嵌入

该研究提出了一种基于无监督学习和深度神经网络的终端到终端学习框架，结合自编码器和最大均值差异损失来学习语义和视觉特征的联合嵌入，实现了跨域多模态表示的提取，并构建了更全面的标记和未标记数据的嵌入，帮助从归纳到传导的范围内解决零样本和少样本图像识别和检索等各种复杂任务。

Mar, 2017

对抗表示学习用于文本到图像匹配

本文提出了一种基于 TIMAM 和 BERT 的文本图像匹配模型，该模型可以学习到模态不变的特征表示，在四个公开数据集上取得了最优的交叉模态匹配性能，排名 1 的准确率提高了 2％到 5％。

Aug, 2019

学习深度结构保持的图像文本嵌入

提出使用双分支神经网络进行联合嵌入图像和文本的方法，包含多层线性投影和非线性激活函数，通过结合度量学习和交叉视图约束优化进行训练，实验结果表明该方法在图像 - 文本检索和短语定位任务上具有显著性能改进。

Nov, 2015

弥合地对空图像匹配的领域差距

本研究提出了一种基于条件 GAN 的新方法，通过合成俯视图像，将两个视图之间的差距最小化，实现了对视觉实体的跨视图建模并进行特征融合，最终在 CVUSA 数据集上成功实现了景点检索任务。

Apr, 2019

文本引导的图像聚类

通过使用图像标题生成和视觉问答 (VQA) 模型生成文本，并基于生成的文本进行聚类，本研究在八个不同的图像聚类数据集中展示了得到的文本表示经常优于图像特征。此外，我们提出了一种基于计数的聚类解释方法，在聚类准确性不太高的情况下，基于关键词的解释能更好地描述聚类结果。整体而言，这项研究挑战了传统方法并为使用生成的文本进行图像聚类铺平了道路。

Feb, 2024

通过图像文本转换实现更好文本理解

本文探讨了将视觉信息与文本表示相结合的模型，通过 comprehensive ablation studies，我们提出了一种简单但表现突出的架构，相对于其他的 multimodal approaches，在若干基准测试中取得了更好的成绩。同时在使用数量级更少的数据时，也改进了与图像相关的文本数据集的最新成果。

May, 2017

潜在正态流用于多对多跨域映射

本篇论文提出了一种新颖的半监督框架，将共享信息与特定领域信息分别建模，并结合了基于规范化流的先验知识，以实现高效的图文交叉多对多映射，该方法被证明在图片标题生成和文本到图像合成等多种任务中具有有效性。

Feb, 2020

一句话描绘千张画面：通过语言指导提炼 CLIP 进行领域泛化

通过引入视觉 - 语言模型进行知识蒸馏，本文提出了一种新的域泛化方法，称为 RISE (Regularized Invariance with Semantic Embeddings)，并通过在多个基准数据集上的实验证明其在域泛化方面的优越性。

Sep, 2023

面向神经机器翻译的无监督领域自适应与领域感知特征嵌入

提出一种通过使用语言建模来学习领域感知特征嵌入，在多个实验中提高神经机器翻译性能的方法，该方法允许使用者指定特定领域的文本表示。

Aug, 2019