文本可追溯视觉再现的新基准
通过引入 VQAScore 和 GenAI-Bench,本研究在评估生成式人工智能方面取得了重要进展,并证明了 VQAScore 与传统评估指标相比在复杂文本生成方面的可靠性和性能优势。
Apr, 2024
该研究提出了一种统一框架来生成和处理面部图像,基于预训练的 GAN 模型,使用两种新颖的策略,直接优化潜在空间的潜在编码以获取多模式输入的图像生成和操纵,并提出了一个大型数据集 Multi-Modal CelebA-HQ。
Apr, 2021
ChatGPT 的出现再次引发了人工智能生成的研究,而此次研究聚焦于 ChatGPT 在语言生成领域的因果推理能力,提出了一种称为 Visual Question Answering with Image(VQAI)的图像生成任务,并基于经典的 Tom and Jerry 动画系列建立了相应的数据集,同时开发了一种应对此任务挑战的新的图像生成范式,并通过广泛的实验和分析来探讨这一方法的潜力和局限性。
Dec, 2023
本文旨在提出一种规范化和明确定义的人工评估协议,以促进未来作品中可验证和可重复的人工评估,针对 37 篇最近论文调查显示,许多作品仅依赖自动度量或执行不可靠或不可重复的人工评估,同时,作者还提供了设计可靠和决定性人工评估实验所需的见解,并向社区提供了几个公开的资源以促进快速实现。
Apr, 2023
通过重新标注语料库并以此为基础训练文本到图像模型,可以显著提高模型的图像质量和语义对齐,并减少训练与推理之间的差异,增加样例效率,使模型更好地理解标题和图像之间的关系。
Oct, 2023
通过视觉问答框架和基于 CLEVR 的故障排除数据集,提出了一种双方游戏来评估视觉智能系统的推理能力,并探讨了数据驱动方法在没有利用数据集中的种种偏见的情况下是否可以进行推理。
Feb, 2022
本文通过对 GenAI-Bench 上的人类评分进行广泛研究,评估领先的图像和视频生成模型在复合文本到视觉生成的各个方面的性能,并发现 VQAScore 比先前的评估指标(如 CLIPScore)明显优于人类评分,而且 VQAScore 可以在黑盒的基础上通过简单地对候选图像进行排名(3 到 9 张)从而显著提高生成速度,在需要高级视觉语言推理的复合提示下,VQAScore 的排名效果比其他评分方法如 PickScore、HPSv2 和 ImageReward 提高 2 倍至 3 倍。
Jun, 2024
我们提供了一个新的多任务基准,用于评估文本到图像模型,在计算机视觉和机器学习领域中进行了广泛的研究,我们进行了人类评估,比较了最常见的开源(稳定扩散)和商业(DALL-E 2)模型,在三个难度级别上的三个任务上,跨十个提示,提供了 3,600 个评分。
Nov, 2022
通过分解式对齐评估和改进文本到图像的对齐效果,并使用 Decompositional-Alignment-Score 和 VQA 模型来测量不同断言的对齐度。实验结果表明,这种对齐度指标与人类评分高度相关,并且断言级别的对齐度评分可用于逐步提高最终图像输出中不同断言的表达。人类用户研究表明,该方法在整体文本到图像对齐准确性方面超过了之前的最先进方法 8.7%。
Jul, 2023