如何使用 ViTScore 度量评估图像的语义沟通能力?
对文本到图像模型中的提示准确性进行基准测试,比较评估了多种提示信实度度量,发现当前的视觉语言模型基于向量的度量无法在许多困难的 T2I 模型错误情况下显着优于基于特征的度量。介绍了一套语义错误图形,TS2,用于严格判断给定的提示信实度度量指标是否能够正确地对图像进行排序和区分不同的错误节点,以期通过客观的准则更严格地比较和发展更好的 T2I 期望提示信实度度量指标。
Apr, 2024
通过引入基于分割模型的新型分词器策略,语义视觉转换器(sViT)在捕获显著特征和全局依赖关系的同时,提高了解释性和鲁棒性,相较于传统视觉转换器模型(ViT)在训练数据需求、分布泛化和解释性方面表现得更优。
Feb, 2024
SAMScore 是基于高性能的 Segment Anything 模型(SAM)设计的一种通用的语义结构相似度指标,可用于评估图像翻译模型的可靠性,并应用于 19 项图像翻译任务中,发现其能够胜过所有竞争指标,是一种有价值的工具,有助于推动图像翻译领域的发展。
May, 2023
图像到图像的转换在医学影像领域具有巨大影响,本研究介绍了用于图像合成评估的参考和非参考度量标准,并调查了九种需要参考的度量标准(SSIM、MS-SSIM、PSNR、MSE、NMSE、MAE、LPIPS、NMI 和 PCC)以及三种非参考度量标准(BLUR、MSN 和 MNG)对来自 BraSyn 数据集的 MR 图像的 11 种扭曲的检测能力。此外,还测试了下游分割度量标准和三种归一化方法(Minmax、cMinMax 和 Zscore)的影响。通过合理选择和结合图像相似性度量标准,可以改进用于 MR 图像合成的生成模型的训练和选择,在高成本的经过训练的放射科医生评估之前可以验证其输出的许多方面。
May, 2024
本文介绍了 VIESCORE,这是一种视觉指导的可解释度度量指标,用于评估任何条件图像生成任务。VIESCORE 利用多模态大语言模型(MLLMs)的通用知识作为支撑,无需训练或微调。在七项著名的条件图像任务上评估 VIESCORE,我们发现:(1)VIESCORE(GPT4-v)与人类评估的 Spearman 相关系数达到了 0.3,而人类之间的相关系数为 0.45。(2)与 GPT-4v 相比,使用开源 MLLM 的 VIESCORE 在评估合成图像时明显较弱。(3)VIESCORE 在生成任务中与人类评分具有相当的相关性,但在编辑任务中存在困难。基于这些结果,我们相信 VIESCORE 在评估图像合成任务中展现了巨大的潜力,可以取代人类评委的角色。
Dec, 2023
HRViT 通过将高分辨率多支路结构与 Vision Transformers 相集成,探索异构分支设计,减少线性层中的冗余并增强注意力块的表现力,从而在 ADE20K 和 Cityscapes 数据集达到 50.20%和 83.16%的 mIoU 优化性能和效率,比现有的 MiT 和 CSWin 骨干框架平均提高 1.78 个 mIoU,参数节省 28%,FLOPs 减少 21%。
Nov, 2021
本文提出了一个全新的知觉度量标准 DreamSim,通过人类相似度判断数据集的研究得出,该标准可以全面评估图片的相似性,更关注于前景物体和语义内容及对颜色和布局敏感,并且具有很好的一般性能。
Jun, 2023