评估文本到视觉生成与图像到文本生成

Apr, 2024

评估文本到视觉生成与图像到文本生成

Evaluating Text-to-Visual Generation with Image-to-Text Generation

Zhiqiu Lin, Deepak Pathak, Baiqi Li, Jiayao Li, Xide Xia...

TL;DR通过引入 VQAScore 和 GenAI-Bench，本研究在评估生成式人工智能方面取得了重要进展，并证明了 VQAScore 与传统评估指标相比在复杂文本生成方面的可靠性和性能优势。

Abstract

Despite significant progress in generative ai, comprehensive evaluation remains challenging because of the lack of effective metrics and standardized benchmarks. For instance, the widely-used CLIPScore measures t

generative ai evaluation vqascore clip-flant5 genai-bench

发现论文，激发创造

GenAI-Bench: 评估和改进文本到视觉生成能力

本文通过对 GenAI-Bench 上的人类评分进行广泛研究，评估领先的图像和视频生成模型在复合文本到视觉生成的各个方面的性能，并发现 VQAScore 比先前的评估指标（如 CLIPScore）明显优于人类评分，而且 VQAScore 可以在黑盒的基础上通过简单地对候选图像进行排名（3 到 9 张）从而显著提高生成速度，在需要高级视觉语言推理的复合提示下，VQAScore 的排名效果比其他评分方法如 PickScore、HPSv2 和 ImageReward 提高 2 倍至 3 倍。

Jun, 2024

划分、评估与改进：基于迭代 VQA 反馈的文本到图像对齐的评估和改进

通过分解式对齐评估和改进文本到图像的对齐效果，并使用 Decompositional-Alignment-Score 和 VQA 模型来测量不同断言的对齐度。实验结果表明，这种对齐度指标与人类评分高度相关，并且断言级别的对齐度评分可用于逐步提高最终图像输出中不同断言的表达。人类用户研究表明，该方法在整体文本到图像对齐准确性方面超过了之前的最先进方法 8.7%。

Jul, 2023

走向更好的文本到视频生成度量

本文研究现有评估指标的局限性，并引入一种新的评估方法，即 Text-to-Video Score (T2VScore)，该指标综合考虑了文本 - 视频对齐和视频质量两个关键要素。同时，我们提出了 TVGE 数据集，以评估和促进未来改进文本到视频生成的指标。在 TVGE 数据集上的实验证明了 T2VScore 的优越性，能够提供更好的评估指标。

Jan, 2024

面向野外视频质量评估的鲁棒性文本提示语义标准

提出了一种基于文本的语义相关质量评价方法 (SAQI) 及其本地化版本 (SAQI-Local)。通过与现有低级指标结合，提出了统一盲视频质量指数 (BVQI) 及其改进版 (BVQI-Local)，并通过有效的微调方案，实现了优于普遍基于人类意见的 VQA 方法的性能和卓越的泛化能力。

Apr, 2023

利用视觉问答改进文本到图像合成

该论文提出一种有效的方法，将文本到图像的生成与视觉问答相结合，利用 VQA 2.0 数据集来提高生成图像的图像质量和图像文本对齐，通过生成问题与答案对的额外训练样本，并采用标准的 VQA 模型，提供 T2I 模型的辅助学习信号，鼓励从 QA 对生成的图像看起来更加逼真，并最小化外部 VQA 损失。该方法可以成功提高 T2I 综合的效果，使 FID 从 27.84 降至 25.38，R-prec 从 83.82％提高至 84.79％。

Oct, 2020

语言引导的视觉问答：使用知识丰富的提示提升多模态语言模型

对于图像中的问题，通过使用语言指导（LG）如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确；提出了一种多模态框架，使用 CLIP 和 BLIP 模型通过 A-OKVQA、Science-QA、VSR 和 IconQA 数据集的多选问题回答任务进行了基准测试，语言指导使得 CLIP 的性能提高了 7.6%，BLIP-2 的性能提高了 4.8%；使用所提出的语言指导在 Science-QA、VSR 和 IconQA 数据集上也观察到了持续的性能改进。

Oct, 2023

使用自然语言引导的开放域图像生成和编辑

使用多模态编码器指导图像生成的新方法，避免了使用昂贵和经过特殊训练的模型，能够从复杂的语义文本提示中生成高质量的图像，并且能够比 DALL-E [38]，GLIDE [33] 和 Open-Edit [24] 等先前的不灵活方法产生更高的视觉质量。

Apr, 2022

CLIPVQA: 通过 CLIP 进行视频质量评估

本文提出了一种基于 CLIP 的 Transformer 方法（CLIPVQA），用于视频质量评估（VQA）问题，该方法在充分利用质量语言描述和视频帧信息的基础上，实现了新的 VQA 性能，比现有的基准方法的泛化能力提高了 37%。

Jul, 2024

Davidsonian 场景图：提升文本图像生成的细粒度评估可靠性

评估文本到图像模型的难点在于信实性，本研究提出了一种基于问答生成的评估框架，使用预训练模型自动生成问题和答案，并通过与基于视觉问答的答案比较来评分图像的一致性，同时引入 Davidsonian Scene Graph (DSG) 作为一个模块化的方法来解决问题，最终呈现了包含 1,060 个提示的开源评估基准。

Oct, 2023

使用 CLIP 引导的视觉文本注意力进行视频问答

本文提出了一种利用 Contrastive Language-Image Pre-training（CLIP）作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后，利用 CLIP 对一组通用知识域上视觉 - 文本特征进行特征提取，并提出了交叉域学习来提取目标域和通用域间的视觉和语言特征之间的注意力信息，将特征集成用于迁移学习，结果表明这种方法优于现有的最先进方法。

Mar, 2023