构建合成与真实世界的预训练场景文本检测器

Dec, 2023

构建合成与真实世界的预训练场景文本检测器

Bridging Synthetic and Real Worlds for Pre-training Scene Text Detectors

Tongkun Guan, Wei Shen, Xue Yang, Xuehui Wang, Xiaokang Yang

TL;DR借助综合利用大规模有注释的合成数据（LSD）和未标记真实数据（URD）的 FreeReal 预训练范式，通过一种新颖的基于字符结构的混合机制（GlyphMix）以及在各种语言环境下有效地修补英语主导 LSD 到 URD 所引起的语言域差异，FreeReal 在改进 DBNet、PANet、PSENet 和 FCENet 等方法的性能上持续表现出色，相对于以前的预训练方法平均有 4.56％、3.85％、3.90％和 1.97％的显著增益。

Abstract

Existing scene text detection methods typically rely on extensive real data for training. Due to the lack of annotated real images, recent works have attempted to exploit large-scale labeled synthetic data (LSD)

scene text detection pre-training synthetic data domain gap glyph-based mixing mechanism

发现论文，激发创造

面向现实的城市场景语义分割自适应技术

该论文提出了一种面向现实的域适应方法，通过学习合成数据，结合目标引导的蒸馏和空间感知的适应方案，可以提高语义分割网络从合成到真实城市场景的泛化能力。

Nov, 2017

使用合成数据训练深度网络：通过域随机化缩小现实差距

该研究提供了一种基于合成图像训练深层神经网络对象检测的系统，并探讨了领域随机化技术的重要性及其在检测 KITTI 数据集上的应用。

Apr, 2018

多元化训练，不是微调：使用合成图像扩大视觉识别训练规模

通过在大型语言模型和 CLIP 的辅助下，使用生成模型生成合成训练图像来解决类名的歧义性、缺乏多样性的问题，并利用域适应技术和辅助批归一化来减轻领域偏移，以更好地提升模型识别性能。

Dec, 2023

Deep CG2Real: 通过图像分解进行合成到真实图像的转换

提出一种利用半监督方法，在图像的着色和反照率层上操作，训练半监督网络用于图片合成，该方法可以有效提高 OpenGL 渲染等低质量合成图像的视觉逼真度。该方法通过两个阶段的管道来实现，即首先以物理学渲染为目标以有监督的方式预测准确的着色，然后再采用改进的 CycleGAN 网络进一步提高纹理和着色的逼真度。在 SUNCG 室内场景数据集上进行的广泛评估表明，与其他最先进的方法相比，我们的方法可以产生更逼真的图像。此外，我们所生成的 “真实” 图像训练出的网络比领域适应方法预测出更精确的深度和法线，这表明提高图像的视觉逼真度可以比强加任务特定的损失效果更良好。

Mar, 2020

域风格迁移：一种强而简单的合成到真实图像域自适应基准线

通过对于一种现有的照片风格转换算法进行简单的修改，本文展示了应用于真实图像时的深度神经网络有效利用合成数据的方法，提高了合成图像到真实图像的领域适应性。我们在语义分割和物体检测的四个合成到真实的任务上进行了广泛的实验验证，展示了我们的方法在基于分割和物体检测的度量方面超越了任何当前的基于 GAN 的图像翻译方法的性能。此外，我们还通过距离分析方法，展示了我们的算法在缩小他们之间距离并且将合成数据转换为真实数据方面得到的显著效果。

Jul, 2018

域整理：简化图像缓解合成 - 真实域间的转移并提高深度估计

通过注意力模块，学习识别和去除真实图像中的困难部分，以提高合成数据训练的模型对真实图像的景深估计。

Feb, 2020

城市场景语义分割中合成数据的有效使用

本文提出了一种无需真实图像数据的方法，通过修改前景和背景类的训练方法来适应合成图像，有效地训练出了适用于城市街景和驾驶场景的图像语义分割模型。

Jul, 2018

保持虚幻：通过仅使用几何先验填补 2.5D 识别的逼真差距

本研究提出了一种基于 CAD 模型、使用生成式对抗网络的增强方法进行无监督训练，从而更好地识别深度图像并恢复可靠的深度信息。该方法不但简化了识别算法的训练，通过各种实验，还证明了其性能优于传统方法。

Apr, 2018

基于 Blender 的合成数据在裸眼监督学习和下游领域自适应中的实用性新基准

本论文介绍了一种使用 3D 渲染和域随机化技术生成合成数据的方法，探究了深度学习和领域适应的相关理论和新发现，并利用模拟到现实的适应性作为下行任务，证明了合成数据预训练也有助于提高实际测试结果。最后，作者们发展了一个新的大规模合成到实际（S2RDA）图像分类基准，提供了更具挑战性的从模拟到现实的转移。

Mar, 2023

ProCST: 基于渐进循环风格迁移的语义分割增强

提出一种针对图像数据的新型两阶段框架，通过逐步训练多尺度神经网络从源域到目标域执行图像翻译，将生成的新数据作为任何标准 UDA 方法的输入，以进一步降低域差距，达到提高域自适应技术的效果。

Apr, 2022