评估文本到视觉生成与图像到文本生成
本文通过对 GenAI-Bench 上的人类评分进行广泛研究,评估领先的图像和视频生成模型在复合文本到视觉生成的各个方面的性能,并发现 VQAScore 比先前的评估指标(如 CLIPScore)明显优于人类评分,而且 VQAScore 可以在黑盒的基础上通过简单地对候选图像进行排名(3 到 9 张)从而显著提高生成速度,在需要高级视觉语言推理的复合提示下,VQAScore 的排名效果比其他评分方法如 PickScore、HPSv2 和 ImageReward 提高 2 倍至 3 倍。
Jun, 2024
通过分解式对齐评估和改进文本到图像的对齐效果,并使用 Decompositional-Alignment-Score 和 VQA 模型来测量不同断言的对齐度。实验结果表明,这种对齐度指标与人类评分高度相关,并且断言级别的对齐度评分可用于逐步提高最终图像输出中不同断言的表达。人类用户研究表明,该方法在整体文本到图像对齐准确性方面超过了之前的最先进方法 8.7%。
Jul, 2023
本文研究现有评估指标的局限性,并引入一种新的评估方法,即 Text-to-Video Score (T2VScore),该指标综合考虑了文本 - 视频对齐和视频质量两个关键要素。同时,我们提出了 TVGE 数据集,以评估和促进未来改进文本到视频生成的指标。在 TVGE 数据集上的实验证明了 T2VScore 的优越性,能够提供更好的评估指标。
Jan, 2024
提出了一种基于文本的语义相关质量评价方法 (SAQI) 及其本地化版本 (SAQI-Local)。通过与现有低级指标结合,提出了统一盲视频质量指数 (BVQI) 及其改进版 (BVQI-Local),并通过有效的微调方案,实现了优于普遍基于人类意见的 VQA 方法的性能和卓越的泛化能力。
Apr, 2023
该论文提出一种有效的方法,将文本到图像的生成与视觉问答相结合,利用 VQA 2.0 数据集来提高生成图像的图像质量和图像文本对齐,通过生成问题与答案对的额外训练样本,并采用标准的 VQA 模型,提供 T2I 模型的辅助学习信号,鼓励从 QA 对生成的图像看起来更加逼真,并最小化外部 VQA 损失。该方法可以成功提高 T2I 综合的效果,使 FID 从 27.84 降至 25.38,R-prec 从 83.82%提高至 84.79%。
Oct, 2020
对于图像中的问题,通过使用语言指导(LG)如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确;提出了一种多模态框架,使用 CLIP 和 BLIP 模型通过 A-OKVQA、Science-QA、VSR 和 IconQA 数据集的多选问题回答任务进行了基准测试,语言指导使得 CLIP 的性能提高了 7.6%,BLIP-2 的性能提高了 4.8%;使用所提出的语言指导在 Science-QA、VSR 和 IconQA 数据集上也观察到了持续的性能改进。
Oct, 2023
使用多模态编码器指导图像生成的新方法,避免了使用昂贵和经过特殊训练的模型,能够从复杂的语义文本提示中生成高质量的图像,并且能够比 DALL-E [38],GLIDE [33] 和 Open-Edit [24] 等先前的不灵活方法产生更高的视觉质量。
Apr, 2022
评估文本到图像模型的难点在于信实性,本研究提出了一种基于问答生成的评估框架,使用预训练模型自动生成问题和答案,并通过与基于视觉问答的答案比较来评分图像的一致性,同时引入 Davidsonian Scene Graph (DSG) 作为一个模块化的方法来解决问题,最终呈现了包含 1,060 个提示的开源评估基准。
Oct, 2023
本文提出了一种利用 Contrastive Language-Image Pre-training(CLIP)作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后,利用 CLIP 对一组通用知识域上视觉 - 文本特征进行特征提取,并提出了交叉域学习来提取目标域和通用域间的视觉和语言特征之间的注意力信息,将特征集成用于迁移学习,结果表明这种方法优于现有的最先进方法。
Mar, 2023
通过提出创新的评估方法并修正现有的视觉问答基准,我们的研究旨在推进我们对文本生成视觉语言模型能力的理解,提出了一种基于著名视觉分类数据集的新型视觉问答基准,可以对文本生成视觉语言模型进行细粒度评估,并与辨别性视觉语言模型进行比较。我们建议利用标签空间的语义层次结构为细粒度分类任务中的粗略答案提出自动生成的后续问题,以改善评估模型预测的传统自然语言处理和基于语言模型的度量标准。我们进行了人工评估研究,基于这项研究,我们决定采用最终的度量标准。我们将我们的基准应用于一套视觉语言模型,并详细比较了它们在对象、行为和属性分类方面的能力。我们的研究为更精确、有意义的评估奠定基础,促进了视觉语言建模领域的有针对性进展。
Feb, 2024