SynCDR: 用合成数据训练跨领域检索模型

Dec, 2023

SynCDR: 用合成数据训练跨领域检索模型

SynCDR : Training Cross Domain Retrieval Models with Synthetic Data

Samarth Mishra, Kate Saenko, Venkatesh Saligrama

TL;DR在跨领域检索中，我们提出了一种简单的解决方案，通过图像之间的保留类别的翻译，在不共享训练数据的情况下生成合成数据，从而提高跨领域检索模型的准确性。

Abstract

In cross-domain retrieval, a model is required to identify images from the same semantic category across two visual domains. For instance, given a sketch of an object, a model needs to retrieve a real image of it

cross-domain retrieval semantic category feature space unlabeled images synthetic data

发现论文，激发创造

语义特征学习用于通用无监督跨领域检索

本文首次引入了 “通用无监督跨领域检索（U^2CDR）” 问题，并设计了一个两阶段的语义特征学习框架来解决该问题。在第一阶段，通过实例 - 原型 - 混合对比损失和语义增强损失，在域间保持一个跨领域统一的原型结构以应对类别空间差异。在第二阶段，通过修改的对抗训练机制，在领域对齐过程中保持已建立的原型结构的最小变化，从而实现更准确的最近邻搜索。对多个数据集和场景进行了广泛实验，包括闭集、部分集和开集 CDR，结果表明我们的方法在解决 U^2CDR 挑战方面显著优于现有最先进的 CDR 方法以及其他主题中一些潜在有效的研究。

Mar, 2024

跨域图像检索的多模态方法

使用多模态语言 - 视觉架构的新颖标题匹配方法能够在跨域图像检索中实现最先进的性能表现，尤其在与人工智能生成的图像一起进行测试时。

Mar, 2024

无监督跨域图像检索的特征表示学习

本文探讨无监督的跨域图像检索任务，提出了基于类簇对比学习和距离 - 距离损失的方法，无需外部监督，在 Office-Home 和 DomainNet 数据集上实验结果表明，我们的方法优于现有最先进方法。

Jul, 2022

跨域自监督多任务特征学习：使用合成图像

本文提出了一种多任务深度网络学习通用高级视觉表示的方法，并通过对人工制成的图像进行训练来克服真实与合成数据之间的领域差异，模型考虑同步从合成 RGB 图像中预测其表面法向、深度和实例轮廓，并最小化真实和合成数据之间特征空间的差异，在广泛实验的基础上，表明我们的网络相比单任务基线学习到更具有可转移性的表示，使得在 PASCAL VOC 2007 分类和 2012 检测上能够产生最先进的迁移学习结果。

Nov, 2017

域整理：简化图像缓解合成 - 真实域间的转移并提高深度估计

通过注意力模块，学习识别和去除真实图像中的困难部分，以提高合成数据训练的模型对真实图像的景深估计。

Feb, 2020

从合成到真实：揭示合成数据在视频人物再识别中的威力

该研究探讨了跨域视频人物再识别的新问题，以合成视频数据作为训练的源领域，并以真实世界视频作为测试，显著减少了对真实训练数据的依赖。研究首先提出了一种自监督领域不变特征学习策略来提高合成数据在视频人物再识别中的作用，并通过自监督一致性损失进一步改进了目标领域中的人物识别能力。在四个真实数据集上的实验结果验证了跨合成与真实领域适应的合理性以及我们方法的有效性。令人惊讶的是，在跨域设置中，合成数据的表现甚至优于真实数据。

Feb, 2024

语义分割的无监督对比域自适应

通过对比学习实现特征对齐，提出了一种跨领域适应的标签扩展方法，结果表明，我们的方法在 Cityscapes 数据集上的表现始终优于最先进的方法。

Apr, 2022

基于检索引导的无监督多领域图像到图像翻译

本文提出使用图像检索系统辅助图像翻译，从而生成更高质量的图片，实验结果表明该方案是有效的。

Aug, 2020

从合成数据中学习语义分割：一种几何引导的输入输出适应方法

本研究利用合成数据中的几何信息，结合图像翻译网络和任务网络，通过对抗性训练同时进行深度估计和语义分割，有效地缩小域差距，实现了跨域语义分割的重大性能提高。

Dec, 2018

城市场景语义分割中合成数据的有效使用

本文提出了一种无需真实图像数据的方法，通过修改前景和背景类的训练方法来适应合成图像，有效地训练出了适用于城市街景和驾驶场景的图像语义分割模型。

Jul, 2018