基于偏好驱动的文本到图像生成的增强学习

Jul, 2024

基于偏好驱动的文本到图像生成的增强学习

Subject-driven Text-to-Image Generation via Preference-based Reinforcement Learning

Yanting Miao, William Loh, Suraj Kothawade, Pascal Poupart, Abdullah Rashwan...

TL;DR通过提出的λ-谐波奖励函数，结合 Bradley-Terry 偏爱模型，在主题驱动生成任务中实现模型选择和早停验证，并在 DreamBench 上实现了 0.833 的 CLIP-I 分数和 0.314 的 CLIP-T 分数。

Abstract

text-to-image generative models have recently attracted considerable interest, enabling the synthesis of high-quality images from textual prompts. However, these models often lack the capability to generate specific subjects from given reference images or to synthesize novel renditions

发现论文，激发创造

DreamBooth: 针对主题驱动生成的 Fine Tuning 文字到图像扩散模型

提出了一种新的text-to-image模型的个性化方法，该方法能够通过少量输入的图像，fine-tune预训练的text-to-image模型，使其能够将唯一标识符绑定到特定主题上，并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。

Aug, 2022

文本到图像生成的提示优化

该研究提出了一种文本生成图像的自适应提示适配框架，该框架使用预训练语言模型进行有监督的微调，再使用强化学习探索更好的提示，通过奖励函数鼓励策略生成更具美感的图像，实验结果表明，自适应提示适配方法优于手动人工优化提示工程，预训练检查点已经公开发布。

Dec, 2022

ImageReward:学习和评估人类对文本到图像生成的偏好

本文介绍了 ImageReward，第一个通用的文本到图像人类偏好奖励模型，通过系统注释流程，其训练基于涵盖评级和排名组件的数据集，包括 137k 个专家比较。在人类评估中，ImageReward 超越了现有的评分方法（例如 CLIP），成为评估和改进文本到图像合成的有前途的自动度量标准。该奖励模型可通过 exttt{image-reward} 包在 https://github.com/THUDM/ImageReward 上公开获得。

Apr, 2023

利用精细语义奖励提升文本到图像扩散模型

本文提出FineRewards方法，通过引入两种细粒度语义奖励——caption reward 和 SAM reward，从两个语义视角提升text-to-image中文本和图像的匹配，实现模态对齐。在使用多个奖励函数指导训练的时候，FineRewards方法在MS-COCO基准测试上优于其他基准奖励函数，并且与当前图像奖励的统一进一步提高了模型性能。

May, 2023

InstructBooth: 指令跟随个性化图文生成

使用有限的图像集对文本-图像模型进行个性化处理，通过引入InstructBooth方法，使用特定对象的少量特定图像来增强图像-文本对齐，最终实现了优于基准线的图像-文本对齐效果。

Dec, 2023

利用强化学习与人类反馈增强图像字幕生成

本研究探索了一种潜在的方法，通过使用Flickr8k数据集，将监督学习和强化学习与人类反馈相结合，以提高深度神经网络模型生成符合人类偏好的标题的性能，并引入了一种新的损失函数，能够基于人类反馈优化模型。

Mar, 2024

文本到图像生成的动态提示优化

通过引入Prompt Auto-Editing (PAE)方法，我们改进了文本生成图像的初衷，进一步采用在线加强学习策略来探索每个词的权重和注入时间步长，从而实现了动态的精细控制提示。实验结果表明，我们的方法在改善原始提示的同时生成了视觉更吸引人的图像，并保持了语义的一致性。

Apr, 2024

多模态大语言模型是文本到图像生成的人类对齐标注器

通过利用多模态大型语言模型创建VisionPrefer，我们构建了一个高质量和细粒度的用户偏好数据集，用于指导文本到图像生成模型的训练，该数据集在多个偏好方面捕捉了人类的喜好，并且其性能优于之前的人类偏好度量标准，并证明了将人工智能生成的合成数据作为监督信号集成到视觉生成模型中，是实现与人类偏好更好的对齐的一个有前途的途径。

Apr, 2024

无需训练的增强主体注意力引导的文本到图像生成

我们提出了一种主题驱动的生成框架，通过介入生成过程中的推理时间，强化注意力图，实现精确的属性绑定和特征注入，展示了卓越的零次生成能力，尤其在组合生成的挑战性任务中。

May, 2024

课程定向优化策略：扩散和一致性模型

该论文介绍了一种基于课程学习的新颖增强版Direct Preference Optimization（DPO）方法，用于文本到图像生成，在三个基准测试中胜过了其他方法，包括文本对齐、美学和人类首选项等方面。

May, 2024