文本可追溯视觉再现的新基准

Mar, 2023

New Benchmarks for Accountable Text-based Visual Re-creation

Zhiwei Zhang, Yuliang Liu

TL;DR本研究构建了一种基于文本和视觉推理的控制生成图像的方法，其中通过新构建的 CLEVR-NOT 数据集和手动制作的 Fruit-NOT 数据集对模型的准确性和行为进行了详细分析，旨在提高文本图像生成模型的可控性和可解释性。

Abstract

Given a command, humans can directly execute the action after thinking or choose to reject it, with reasonable feedback at the same time. However, the behavior of existing text-to-image generation methods are uncontrollable and irresponsible. In this paper, we construct extensive exper

text-to-image generation clevr-not dataset visual re-creation task accountability auto-encoder

发现论文，激发创造

评估文本到视觉生成与图像到文本生成

通过引入 VQAScore 和 GenAI-Bench，本研究在评估生成式人工智能方面取得了重要进展，并证明了 VQAScore 与传统评估指标相比在复杂文本生成方面的可靠性和性能优势。

Apr, 2024

面部图像生成和操作的开放式文本引导实现

该研究提出了一种统一框架来生成和处理面部图像，基于预训练的 GAN 模型，使用两种新颖的策略，直接优化潜在空间的潜在编码以获取多模式输入的图像生成和操纵，并提出了一个大型数据集 Multi-Modal CelebA-HQ。

Apr, 2021

视觉去幻化指令生成

该文介绍了一种名为 CAP2QA 的生成视觉识别指导的方法，能够显著减少视觉错觉，同时改善视觉识别能力和表达能力。

Feb, 2024

基于因果推理的图像内容生成

ChatGPT 的出现再次引发了人工智能生成的研究，而此次研究聚焦于 ChatGPT 在语言生成领域的因果推理能力，提出了一种称为 Visual Question Answering with Image（VQAI）的图像生成任务，并基于经典的 Tom and Jerry 动画系列建立了相应的数据集，同时开发了一种应对此任务挑战的新的图像生成范式，并通过广泛的实验和分析来探讨这一方法的潜力和局限性。

Dec, 2023

面向可验证和可重复的文本到图像生成的人类评估

本文旨在提出一种规范化和明确定义的人工评估协议，以促进未来作品中可验证和可重复的人工评估，针对 37 篇最近论文调查显示，许多作品仅依赖自动度量或执行不可靠或不可重复的人工评估，同时，作者还提供了设计可靠和决定性人工评估实验所需的见解，并向社区提供了几个公开的资源以促进快速实现。

Apr, 2023

一图胜千言：原则性重描述提升图像生成

通过重新标注语料库并以此为基础训练文本到图像模型，可以显著提高模型的图像质量和语义对齐，并减少训练与推理之间的差异，增加样例效率，使模型更好地理解标题和图像之间的关系。

Oct, 2023

测量 CLEVRness：对视觉推理模型的黑盒测试

通过视觉问答框架和基于 CLEVR 的故障排除数据集，提出了一种双方游戏来评估视觉智能系统的推理能力，并探讨了数据驱动方法在没有利用数据集中的种种偏见的情况下是否可以进行推理。

Feb, 2022

GenAI-Bench: 评估和改进文本到视觉生成能力

本文通过对 GenAI-Bench 上的人类评分进行广泛研究，评估领先的图像和视频生成模型在复合文本到视觉生成的各个方面的性能，并发现 VQAScore 比先前的评估指标（如 CLIPScore）明显优于人类评分，而且 VQAScore 可以在黑盒的基础上通过简单地对候选图像进行排名（3 到 9 张）从而显著提高生成速度，在需要高级视觉语言推理的复合提示下，VQAScore 的排名效果比其他评分方法如 PickScore、HPSv2 和 ImageReward 提高 2 倍至 3 倍。

Jun, 2024

多任务基准测试中文本至图像模型的人类评估

我们提供了一个新的多任务基准，用于评估文本到图像模型，在计算机视觉和机器学习领域中进行了广泛的研究，我们进行了人类评估，比较了最常见的开源（稳定扩散）和商业（DALL-E 2）模型，在三个难度级别上的三个任务上，跨十个提示，提供了 3,600 个评分。

Nov, 2022

划分、评估与改进：基于迭代 VQA 反馈的文本到图像对齐的评估和改进

通过分解式对齐评估和改进文本到图像的对齐效果，并使用 Decompositional-Alignment-Score 和 VQA 模型来测量不同断言的对齐度。实验结果表明，这种对齐度指标与人类评分高度相关，并且断言级别的对齐度评分可用于逐步提高最终图像输出中不同断言的表达。人类用户研究表明，该方法在整体文本到图像对齐准确性方面超过了之前的最先进方法 8.7%。

Jul, 2023