- 基于偏好驱动的文本到图像生成的增强学习
通过提出的 λ- 谐波奖励函数,结合 Bradley-Terry 偏爱模型,在主题驱动生成任务中实现模型选择和早停验证,并在 DreamBench 上实现了 0.833 的 CLIP-I 分数和 0.314 的 CLIP-T 分数。
- 手术文本到图像生成
通过对文本到图像生成模型在手术领域进行深入分析,利用包含手术动作三元组标注的手术图像数据集,进行了手术数据生成研究,以解决手术数据采集成本高、实践和伦理约束的问题,研究结果表明基于三元组标注的文本输入有助于区分手术动作,通过设计基于工具的类 - CAD 引导的生成模型:可行性和新颖性工程设计之路
本文介绍了一种通过 CAD 图像提示来改善设计可行性的方法,并通过自行车设计任务的案例研究探究了该方法的实用性,结果表明 CAD 图像提示成功地帮助了文本到图像模型创建更具可行性的设计图像,并提供了在工程设计过程中选择适当的 CAD 图像提 - EvalAlign: 通过监督微调人工注释的多模态大模型的精确定位评估文本到图像模型
本文提出了 EvalAlign,这是一种准确性、稳定性和细粒度特性突出的评估指标,通过利用在大规模数据集上进行预训练的多模式大型语言模型(MLLMs)的能力,通过开发集中在图像忠实度和文本 - 图像对齐的两个关键维度的评估协议以及详细的、细 - 一种统一的框架用于整合 LLMs、知识图谱和可控扩散模型的一致性图像生成(PCIG)
通过引入一种基于扩散的新框架,本研究解决了现有文本生成图像模型在生成图像时与输入文本不一致的问题,通过对不一致现象进行细致分析和分类,并利用先进的语言模型提取对象、构建知识图谱,结合图像生成模型进行了准确一致的图像生成实验。
- 评估文图模型中的数值推理
我们综合评估了一系列文本到图像生成模型在不同难度的数值推理任务上的性能,并展示即使是最先进的模型在数学技能方面也较为基础,特别是它们在生成图像中正确表达准确数量对象的能力仅限于较小的数字,并高度依赖于数字术语所出现的上下文,并且随着每个连续 - EquiPrompt: 在思维链中通过迭代引导改进传播模型的偏差
采用 CoT 推理的 EquiPrompt 是一种新颖的方法,用于减少文本到图像生成模型中的偏见,并通过迭代推理改进和受控评估技术解决敏感环境中的零样本 CoT 问题,实验表明 EquiPrompt 有效降低偏见同时保持生成质量,推动道德人 - 文本到图像生成模型中的构成问题的理解和减轻
通过研究基于组合性失败模式,我们发现文本到图像生成模型中 CLIP 文本编码器的文本条件不完备是无法生成高保真组合场景的主要原因,并提出仅通过在 CLIP 表示空间上学习简单的线性投影可以实现最佳组合性改进,同时不降低模型的 FID 分数。
- Diffusion-RPO:通过相对偏好优化对齐扩散模型
Diffusion-RPO 是一种新的方法,旨在更有效地将基于扩散的 T2I 模型与人类偏好对齐。我们引入了一种新的评估指标,即风格对齐,旨在克服当前人类偏好对齐评估中普遍存在的高成本、低可重复性和有限可解释性的挑战。研究结果表明,Diff - 通过上下文化的 Vendi 分数指导,改善生成图像的地理多样性
通过利用上下文化的 Vendi 分数引导(c-VSG),我们在生成图像的多样性方面取得了显著的进展,尤其是在地域表达上,为了更好地反映真实世界的地理多样性。
- 利用文本转图像合成数据进行鲁棒性空中图像灾害评估
利用文本到图像生成模型在创建大规模合成监督时,我们提出了一种简单高效的方法用于来自空中图像的损害评估。我们的方法通过将生成模型的文本引导的基于掩码的图像编辑能力与训练模型的两阶段方法结合,从而在缺乏手动标注数据的领域中提高了模型的域鲁棒性。 - CTRLorALTer: 条件化的 LoRAdapter 用于高效的零样本控制和修改 T2I 模型
提出了一种名为 LoRAdapter 的方法,该方法通过使用一种新颖的条件 LoRA 模块,在相同的公式下统一了风格和结构条件,实现了零 - shot 控制,从而实现了对文本到图像扩散模型的精细控制条件,并且胜过了最近的最先进方法。
- 推动文本到图像模型评估中的地理包容性
通过进行大规模的跨文化研究,我们发现不同地理位置的人对地理表达、视觉吸引力和一致性的偏好存在显著差异,并且目前常用的自动评估指标不能充分考虑这种多样性。我们建议改进自动和人工评估方法。
- 基于贝叶斯优化和图文模型的图像分类器失效的高效探索
现实世界中应谨慎使用图像分类器,验证集上的性能可能不能反映出真实世界中的性能。尤其是对那些在训练过程中经常遇到的条件,分类器可能表现良好,但对其他不常见的条件可能表现不佳。我们假设最近在文本到图像生成模型方面的进展使其成为对计算机视觉模型( - 多模态大语言模型是文本到图像生成的人类对齐标注器
通过利用多模态大型语言模型创建 VisionPrefer,我们构建了一个高质量和细粒度的用户偏好数据集,用于指导文本到图像生成模型的训练,该数据集在多个偏好方面捕捉了人类的喜好,并且其性能优于之前的人类偏好度量标准,并证明了将人工智能生成的 - 在文本到图像生成模型时代重新思考艺术版权侵权问题
最近的文本到图像生成模型(如稳定扩散)非常擅长模仿和生成受版权保护的内容,这引起了艺术家们的担忧,他们担心自己的独特风格可能会被不当复制。为了解决这个问题,本文将 “艺术版权侵权” 问题重新定义为对图像集进行分类问题,而不是探究图像间的相似 - CVPROpenBias:文本到图像生成模型中的开放集偏差检测
本研究提出了一种名为 OpenBias 的新管道,旨在对文本到图像生成模型中的开放集偏见进行识别和量化,并通过定量实验证明 OpenBias 与目前的封闭集偏见检测方法和人类判断一致。
- CVPR文本到图像生成的动态提示优化
通过引入 Prompt Auto-Editing (PAE) 方法,我们改进了文本生成图像的初衷,进一步采用在线加强学习策略来探索每个词的权重和注入时间步长,从而实现了动态的精细控制提示。实验结果表明,我们的方法在改善原始提示的同时生成了视 - CVPRDiffAgent: 快速准确的文本到图像 API 选择与大型语言模型
通过使用 DiffAgent 和 SFTA 训练框架,该研究针对 T2I API 提供了准确和有效的模型选择,并使用 DABench 数据集进行了评估。
- 公正的人类生成:公正检索增强
本研究介绍了一种名为公平检索增强生成(FairRAG)的新框架,该框架通过从外部图像数据库中检索的参考图像来改善人类生成中的公平性,并通过将参考图像投影到文本空间的轻量级线性模块来实现条件生成,以提高公平性。通过简单而有效的去偏策略,Fai