SynArtifact: 通过视觉语言模型对合成图像中的伪影进行分类和缓解
利用先进的视觉语言模型(VLMs)对合成图像进行识别的效果进行了研究,并通过调整最先进的图像字幕模型,利用大型 VLMs 的强大理解能力区分真实图像和扩散基模型生成的合成图像。
Apr, 2024
我们提出了一种利用大语言模型(LLM)和图像生成模型的优点来创建合成图像 - 文本对的新方法,以用于视觉语言模型(VLM)的高效训练。通过预训练一个文本到图像模型来合成由 LLM 生成的图像嵌入,我们的方法能够用合成数据训练出仅需使用人工标注数据一小部分的 VLM,并在图像字幕任务中展现出相当的性能。此研究为生成大规模、可定制的图像数据集引入了一项有前景的技术,从而提升了 VLM 性能,拓展了其在各个领域中的适用性,并改善了数据效率和资源利用。
Mar, 2024
视觉语言模型(VLM)在各种下游任务中展现出了卓越的性能,但是对于属性和物体间关系等细粒度的视觉语言概念的理解仍然是一个重要挑战。我们提出了一种渐进式流水线来合成在特定属性上变化而在其他方面保持一致的图像,并利用这个数据引擎设计了一个用于诊断物体尺寸、位置、存在和数量理解的基准测试 SPEC。令人惊讶的是,四个领先的 VLM 在 SPEC 上的表现接近随机猜测,揭示了重大局限性。鉴于此,我们提出了一种简单而有效的方法来优化 VLM 在细粒度理解上的性能,在不影响零样本性能的情况下,显著改善了 SPEC 的结果。在其他两个细粒度基准测试上的结果也表明了我们方法的可迁移性,并进一步验证了我们的方法。
Nov, 2023
本文旨在通过提供一百万级的、人工合成的图像数据集 SyViC 和相应的数据生成代码,以及细调模型的策略,探讨如何提高视觉语言模型对非物体类词汇等方面(即超越名词的视觉语言概念)的理解和组合推理能力,从而在保持零样本准确度的前提下,极大提高模型的性能。通过在 ARO 和 VL-Checklist 等基准测试上的广泛实验和削减,我们证明了用人工合成数据进行训练可以在不牺牲零样本能力的情况下大幅提升其 VLC 理解能力(如在 ARO 上提高 9.9%,VL-Checklist 上提高 4.3%)。
Mar, 2023
我们提出了一种新颖的知识感知艺术品图像合成方法,准确地将历史遗失的对象恢复为视觉形式,通过构造带有显式考古知识的提示、引入额外的文本指导以及应用视觉 - 语义约束,使模型能够学习更多细节,并生成更高质量的艺术品图像。
Dec, 2023
近期,深度生成模型在各类任务中取得了创建逼真图像的重要进展,然而,这些生成的图像往往在特定区域出现知觉上的瑕疵,需要手动修复。本研究通过全面的实证研究,提出了感知性瑕疵定位(PAL)的方法,跨越多样的图像合成任务。我们引入了一个新的数据集,包括 10,168 个生成图像,每个图像都有基于像素级的感知性瑕疵标签,覆盖了十个合成任务。在我们提出的数据集上训练的分割模型有效地定位了各类任务中的瑕疵。此外,我们还展示了该模型在使用极少的训练样本下适应之前未见过的模型时的高效性。我们进一步提出了一种创新的放大补全流程,能够无缝修复生成图像中的感知性瑕疵。通过实验分析,我们阐明了几个实际的下游应用,如自动瑕疵修复、非参考图像质量评估以及异常区域检测。该数据集和代码已经发布。
Oct, 2023
该研究介绍了一种创新方法 Bi-LORA,利用视觉语言模型与低秩适应技术相结合,将二分类问题重新构建为图像字幕任务,以提高对未知模型生成图像的合成图像检测精度。实验证明该方法在检测合成图像上具有 93.41% 的平均准确率。
Apr, 2024
本文提出了一种基于语言引导对比学习的合成图像检测方法,通过添加文本标签来进行联合文本 - 图像对比学习进行取证特征提取,并将合成图像检测问题制定为一种识别问题。该方法在准确性和 AUC 指标上明显优于同类问题的现有方法。
May, 2023
研究机器学习模型在自然语言推断(NLI)中学习数据集人工特征的问题,并提供一种多层次的数据增强方法以减轻数据集的人工特征带来的影响。
Dec, 2022
利用大型视觉语言模型来评估生成图像与输入文本之间的对齐,在此基础上,通过细调扩散模型来提升其对齐能力。实验证明,该方法显著改善了构图图像生成中的文本 - 图像对齐,特别在物体数量、属性绑定、空间关系和审美质量方面。
Oct, 2023