行为优化的图像生成

Nov, 2023

Behavior Optimized Image Generation

Varun Khurana, Yaman K Singla, Jayakumar Subramanian, Rajiv Ratn Shah, Changyou Chen...

TL;DR探索如何将最终目标的知识融入到图像生成过程中，提出了一种能够理解图像内容和用户行为的 LLM 模型 BoigLLM，使得生成的图像不仅外观更好，而且性能更佳

Abstract

The last few years have witnessed great success on image generation, which has crossed the acceptance thresholds of aesthetics, making it directly applicable to personal and commercial applications. However, images, especially in marketing and advertising applications, are often create

image generation key performance indicators boigllm gpt-3.5 utility-driven image generation

发现论文，激发创造

ImagenHub：标准化条件图像生成模型的评估

条件图像生成的推理和评估存在巨大的不一致性。本文提出 ImagenHub，一个一站式库来标准化所有条件图像生成模型的推理和评估，并通过定义七个主要任务、构建统一的推理管道和设计两个人工评估指标来解决这个问题。

Oct, 2023

BootPIG: 在预训练扩散模型中引入零样本个性化图像生成能力的引导

通过提出的 BootPIG 架构，使用引导图像来指导生成图像的外观，增强了现有的文本到图像生成模型的个性化能力，并通过用户研究证实了 BootPIG 在保持引用对象外观和与文本提示对齐方面的优越性。

Jan, 2024

DreamBench++：个性化图像生成的人工智能基准测试

DreamBench++ 是一个自动化的、与人类对齐的多模态 GPT 模型，通过系统地设计提示，从而在个性化图片生成中达到更高的人类对齐评估，帮助推动社区的创新发现。

Jun, 2024

弥合意图鸿沟：知识增强的视觉生成

通过分析和识别现有生成模型所面临的关键挑战并引入人类见解、预训练模型、逻辑规则和世界知识等多种知识源，本文提出了一种知识增强的迭代优化框架用于视觉内容生成，其中引入了知识反馈模块来逐步改进生成过程，从而提高生成内容与用户意图之间的一致性。通过初步结果展示了所提框架的有效性，突显了知识增强型生成模型在意图一致内容生成方面的潜力。

May, 2024

DreamBooth: 针对主题驱动生成的 Fine Tuning 文字到图像扩散模型

提出了一种新的 text-to-image 模型的个性化方法，该方法能够通过少量输入的图像，fine-tune 预训练的 text-to-image 模型，使其能够将唯一标识符绑定到特定主题上，并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。

Aug, 2022

Bongard-LOGO: 人类水平的概念学习和推理新基准

通过提出 Bongard-LOGO 基准来评估人类概念学习和推理，我们展示了先前方法的不足之处，并讨论了适用于解决此类基准的一般视觉推理架构的研究方向。

Oct, 2020

提高 AI 生成图像检测的解释性和鲁棒性

随着生成模型的能力增长，人工内容检测成为一项越来越重要且困难的任务。本文关注 AI 生成图像（AIGI）检测器的鲁棒性，通过分析基于冻结 CLIP 嵌入的现有最先进方法并展示如何解释它们，我们揭示了各种 AI 生成器生成的图像与真实图像的差异，并提出了两种改进鲁棒性的方法：基于去除嵌入向量的有害成分和基于选择图像编码模型中表现最佳的注意力头。我们的方法在交叉模型转换中将平均超出分布（OOD）分类得分提高了高达 6%。我们还提出了一个用于 AIGI 检测的新数据集，并在评估中使用了该数据集；我们相信这个数据集将有助于推动进一步的研究。数据集和代码已作为补充提供。

Jun, 2024

学习想象力：视觉增强的自然语言生成

该论文提出一种名为 LIVE 的方法，利用预训练语言模型和图像生成模型相结合，使得模型可以像人一样通过想象场景帮助写作，该方法通过融合层实现了图像和文本的结合，并使用 CLIP 来确定文本能否调起想象力，实验表明该方法的有效性。

May, 2023

用户指定内容的条件图像生成与操作

提出了一种单一的文本到图像生成和操纵的流程，其中在我们的流程的第一部分，介绍了 TextStyleGAN 这个在文本上进行训练的模型；第二部分使用预训练的 TextStyleGAN 权重进行语义面部图像操纵，并通过在潜空间中找到语义方向来完成。我们展示了该方法可以用于广泛的面部图像属性操纵，并介绍了 CelebTD-HQ 数据集作为 CelebA-HQ 的扩展，其中包含了人脸及相应的文本描述。

May, 2020

在线检测 AI 生成图像

通过研究 AI 生成图像的检测方法以及泛化性能，本研究扩展了像素预测的应用并评估了使用合成图像训练像素检测器的可行性。

Oct, 2023