如何使用 ViTScore 度量评估图像的语义沟通能力？

Sep, 2023

如何使用 ViTScore 度量评估图像的语义沟通能力？

How to Evaluate Semantic Communications for Images with ViTScore Metric?

Tingting Zhu, Bo Peng, Jifan Liang, Tingchen Han, Hai Wan...

TL;DR语义通信（SC）是一个新的范式，其主要关注点从准确的比特传输转变为在通信中进行有效的语义信息交换；本研究提出了一种评估图像语义相似性的新指标 ViTScore，并通过与其他三种典型指标的比较，证明了 ViTScore 在 SC 场景中更好地评估图像的语义相似性，表明它是一种有效的性能指标。

Abstract

semantic communications (SC) have been expected to be a new paradigm shifting to catalyze the next generation communication, whose main concerns shift from accurate bit transmission to effective semantic information exchange in communications. However, the previous and widely-used

semantic communications image semantic similarity metrics vision transformer score (vitscore)performance metric

发现论文，激发创造

在语义层面衡量视觉相似性的语义相似度分数

基于场景图生成和图匹配的语义评估指标 SeSS 可以测量图像语义级信息的差异，可用于视觉语义通信系统的评估。

Jun, 2024

谁来评估评估？用 T2IScoreScore（TS2）客观评分文本与图像提示一致性指标

对文本到图像模型中的提示准确性进行基准测试，比较评估了多种提示信实度度量，发现当前的视觉语言模型基于向量的度量无法在许多困难的 T2I 模型错误情况下显着优于基于特征的度量。介绍了一套语义错误图形，TS2，用于严格判断给定的提示信实度度量指标是否能够正确地对图像进行排序和区分不同的错误节点，以期通过客观的准则更严格地比较和发展更好的 T2I 期望提示信实度度量指标。

Apr, 2024

自然语言语义下的视觉 Transformer

通过引入基于分割模型的新型分词器策略，语义视觉转换器（sViT）在捕获显著特征和全局依赖关系的同时，提高了解释性和鲁棒性，相较于传统视觉转换器模型（ViT）在训练数据需求、分布泛化和解释性方面表现得更优。

Feb, 2024

SAMScore：一种用于图像翻译评估的语义结构相似度度量方法

SAMScore 是基于高性能的 Segment Anything 模型（SAM）设计的一种通用的语义结构相似度指标，可用于评估图像翻译模型的可靠性，并应用于 19 项图像翻译任务中，发现其能够胜过所有竞争指标，是一种有价值的工具，有助于推动图像翻译领域的发展。

May, 2023

面向语言的图像传输的语义潜空间表示

基于语言的语义通信框架通过语言 - 图像编码和图像 - 语言解码，以及潜在扩散模型，实现了在嘈杂通信渠道中以较高的感知相似度重建预期图像的能力。

May, 2024

MR 图像到图像翻译的相似度度量指标

图像到图像的转换在医学影像领域具有巨大影响，本研究介绍了用于图像合成评估的参考和非参考度量标准，并调查了九种需要参考的度量标准（SSIM、MS-SSIM、PSNR、MSE、NMSE、MAE、LPIPS、NMI 和 PCC）以及三种非参考度量标准（BLUR、MSN 和 MNG）对来自 BraSyn 数据集的 MR 图像的 11 种扭曲的检测能力。此外，还测试了下游分割度量标准和三种归一化方法（Minmax、cMinMax 和 Zscore）的影响。通过合理选择和结合图像相似性度量标准，可以改进用于 MR 图像合成的生成模型的训练和选择，在高成本的经过训练的放射科医生评估之前可以验证其输出的许多方面。

May, 2024

VIEScore：面向条件图像合成评估的可解释度量

本文介绍了 VIESCORE，这是一种视觉指导的可解释度度量指标，用于评估任何条件图像生成任务。VIESCORE 利用多模态大语言模型（MLLMs）的通用知识作为支撑，无需训练或微调。在七项著名的条件图像任务上评估 VIESCORE，我们发现：（1）VIESCORE（GPT4-v）与人类评估的 Spearman 相关系数达到了 0.3，而人类之间的相关系数为 0.45。（2）与 GPT-4v 相比，使用开源 MLLM 的 VIESCORE 在评估合成图像时明显较弱。（3）VIESCORE 在生成任务中与人类评分具有相当的相关性，但在编辑任务中存在困难。基于这些结果，我们相信 VIESCORE 在评估图像合成任务中展现了巨大的潜力，可以取代人类评委的角色。

Dec, 2023

多尺度高分辨率视觉 Transformer 用于语义分割

HRViT 通过将高分辨率多支路结构与 Vision Transformers 相集成，探索异构分支设计，减少线性层中的冗余并增强注意力块的表现力，从而在 ADE20K 和 Cityscapes 数据集达到 50.20％和 83.16％的 mIoU 优化性能和效率，比现有的 MiT 和 CSWin 骨干框架平均提高 1.78 个 mIoU，参数节省 28％，FLOPs 减少 21％。

Nov, 2021

DreamSim：使用合成数据学习人类视觉相似性的新维度

本文提出了一个全新的知觉度量标准 DreamSim，通过人类相似度判断数据集的研究得出，该标准可以全面评估图片的相似性，更关注于前景物体和语义内容及对颜色和布局敏感，并且具有很好的一般性能。

Jun, 2023

使用视觉 Transformer 进行语义分割：一项调查

调查了不同的 ViT 架构用于语义分割的性能和使用基准数据集对其进行比较。

May, 2023