使用文本编码强化学习增强扩散模型
本文介绍了一种有效可扩展的算法,利用强化学习(RL)在各种奖励函数上改进扩散模型,包括人类偏好、组合性和公平性,从而有效地解决了扩散模型与人类偏好不一致的问题,同时提高了生成样本的组合性和多样性。
Jan, 2024
通过提出的 fine-tuning 方法 TextCraftor,我们可以增强 Stable Diffusion 使用的 CLIP 文本编码器,从而在定量基准和人类评估方面实现了显著改进,并且我们的技术还通过不同奖励的细调文本编码器的插值使得可以进行可控的图像生成,同时我们也证明了 TextCraftor 与 UNet finetuning 可以相互独立并且结合以进一步提高生成质量。
Mar, 2024
我们展示了一种以文本作为强大的跨模态接口的方法,通过将图像表示为文本,利用自然语言的可解释性和灵活性,我们使用一个自动编码器,将输入图像转换为文本,并通过固定的文本到图像扩散解码器进行重构,该过程称为 De-Diffusion。实验证实了 De-Diffusion 文本表示图像的精确性和综合性,使其可以轻松地被一般的文本到图像工具和 LLMs 接收,并可用于多样化的多模态任务。
Nov, 2023
DIFFSTE 是一个改善预训练扩散模型性能的双编码器设计框架,通过指令调整训练,实现了场景文本编辑中正确文本渲染和风格控制的任务,使其具有零 - shot 泛化能力。
Apr, 2023
通过分析文本扩散模型的限制,本文提出了一种名为 TREC 的新型文本扩散模型,通过强化条件和时间感知方差缩放来减轻语言离散性问题,在与自回归、非自回归和扩散基线的对比实验中展示了 TREC 的竞争力,并通过定性分析显示其在优化样本中充分利用扩散过程的先进能力。
Feb, 2024
本文提出了一种基于编码器和文本到图像合成模型的方法,用于生成用户定制的对象图像,经过实验验证表明该方法能够产生具有魅力的高质量、多样化和逼真度高的图像。
Apr, 2023
本研究探索了一种潜在的方法,通过使用 Flickr8k 数据集,将监督学习和强化学习与人类反馈相结合,以提高深度神经网络模型生成符合人类偏好的标题的性能,并引入了一种新的损失函数,能够基于人类反馈优化模型。
Mar, 2024
通过使用快速采样方法以及对编码器进行个性化训练,本研究探索了将快速采样方法用于文本到图像模型个性化,并通过预测身份目标让模型在保持多样性和对齐性的同时提高身份准确性的潜力。同时,研究还发现注意力共享机制和一致的数据生成对于编码器训练都有益处。
Apr, 2024
该研究提出了使用在线强化学习对文本到图像模型进行微调的方法,名为 DPOK,该方法将策略优化和 KL 正则化集成在一起,并通过增强学习来更新预训练的文本到图像扩散模型,实验证明该方法在图像文本对齐和图像质量方面优于监督式微调。
May, 2023