交错场景图用于交错文本和图像生成的评估
本文介绍了一种新方法,利用语义输入表示生成对比集,以减少注释成本并评估模型在各种语义方面的性能,同时还可以应用于训练集以提高模型鲁棒性。
Mar, 2021
为解决场景图构建的大量人工成本,提出了一种基于图像语义关系生成的简单有效的图像到文本模型(ISRG),该模型通过将场景图任务分解为两个子任务,即图像分割任务和限制性自回归文本生成任务,极大地降低了场景图的构建成本。在OpenPSG数据集上,该模型获得了31分,相应地优于强基线ResNet-50和CLIP 16点和5点。
Oct, 2022
提出了一个用于场景文本视觉问答的多模态框架,采用“先定位再生成”的范式,将空间边界框作为连接文本和视觉模态的桥梁,通过预先训练的语言模型增强绝对准确率。
Apr, 2023
这项工作研究了一项名为开放域交错图像-文本生成的挑战性任务,该任务根据输入查询生成交错的文本和图像。我们提出了一种新的基于大型语言模型(LLMs)和预训练的文本到图像模型(T2I)的交错生成框架,即OpenLEAF。在OpenLEAF中,LLM生成文本描述,协调T2I模型,创建用于生成图像的视觉提示,并将全局上下文融入到T2I模型中。这种全局上下文提高了交错生成中图像的实体和风格的一致性。我们首先提出使用大型多模态模型(LMMs)来评估开放域交错图像-文本序列的实体和风格的一致性。根据LMM在我们构建的评估集上的评估,所提出的交错生成框架可以为各种领域和应用生成高质量的图像-文本内容,例如如何问答、叙事、图形故事改写以及网页/海报生成任务。此外,我们通过人类评估验证了所提出的LMM评估技术的有效性。我们希望我们提出的框架、基准和LMM评估能够帮助建立有趣的交错图像-文本生成任务。
Oct, 2023
评估文本到图像模型的难点在于信实性,本研究提出了一种基于问答生成的评估框架,使用预训练模型自动生成问题和答案,并通过与基于视觉问答的答案比较来评分图像的一致性,同时引入Davidsonian Scene Graph (DSG)作为一个模块化的方法来解决问题,最终呈现了包含1,060个提示的开源评估基准。
Oct, 2023
通过使用无需标记数据的DreamSync训练算法,结合大视觉语言模型(VLMs)来改进文本到图像模型(T2I)的语义对齐和美观度。
Nov, 2023
我们介绍了InterleavedBench作为第一个精心策划的用于评估混合文本图像生成的基准,并引入了使用GPT-4o提供准确且可解释的评估的强无参考度量InterleavedEval。通过广泛的实验和严格的人工评估,我们表明我们的基准和度量可以有效评估现有模型,并与以前的基于参考的度量具有较强的相关性。
Jun, 2024
本研究针对视觉问答(VQA)领域的数据集和模型进行了深入分析,识别并分类了现有的不同数据集类型及其方法和特点。此外,论文探讨了六种主要的VQA模型范式,并强调了模型在视觉理解和语义理解方面的必要性。研究结果提供了对现有VQA系统的概述,为未来的研究提供了有价值的参考。
Nov, 2024
本研究解决了现有基准在评估开放式交互图文生成方法时数据规模和多样性不足的问题。我们提出了GATE OpenING基准,包含5400个高质量人类标注实例,涵盖56个真实世界任务,并展示了我们的IntJudge模型在评估多模态生成方法方面优于传统评估者的能力。这项工作为未来模型的发展提供了重要指导,并推动了交互图文生成技术的进步。
Nov, 2024
本研究旨在解决现有基准在评估交错图文生成方法时数据规模和多样性不足的问题。论文提出了GATE OpenING基准,包含5400个高质量人类标注实例,涵盖56个真实世界任务,并呈现了IntJudge模型用于评估开放式多模态生成方法。核心发现表明,当前的交错生成方法仍有显著提升空间,研究对下一代模型的发展提供了指导。
Nov, 2024