重新思考开放词汇分割的评估指标

Nov, 2023

重新思考开放词汇分割的评估指标

Rethinking Evaluation Metrics of Open-Vocabulary Segmentaion

Hao Zhou, Tiancheng Shen, Xu Yang, Hai Huang, Xiangtai Li...

TL;DR评估在开放词汇分割中采用的评估指标存在问题，即评估过程仍然严重依赖于零样本或交叉数据集流水线上的闭集指标，而未考虑预测和实际类别之间的相似性。为了解决这个问题，我们首先通过综合定量分析和用户研究使用 WordNet 语言统计、文本嵌入和语言模型调查了 11 种不同的相似性测量方法。在此基础上，我们设计了针对三个开放词汇分割任务的新型评估指标，即 Open mIoU、Open AP 和 Open PQ。我们在三个分割任务的 12 种开放词汇方法上对所提出的评估指标进行了基准测试。尽管相似性距离的相对主观性，我们证明了我们的指标仍然能够很好地评估现有的开放词汇分割方法的开放能力。我们希望我们的工作能够为社区带来关于如何评估模型的开放能力的新思考。评估代码在 github 上发布。

Abstract

In this paper, we highlight a problem of evaluation metrics adopted in the open-vocabulary segmentation. That is, the evaluation process still heavily relies on closed-set metrics on zero-shot or cross-dataset pi

open-vocabulary segmentation evaluation metrics similarity measurements open ability segmentation tasks

发现论文，激发创造

语义答案相似度度量评估

提出了利用基于 Transformer 模型度量方法对自然语言生成及问答系统进行语义相似度评估的框架，并使用 US-American public figures 的同指名字对数据集进行训练，取得较高的语义相似度度量结果。

Jun, 2022

如何评估检测的泛化能力？一种用于综合开放词汇检测的基准测试

计算机视觉中的目标检测在最近几年取得了显著进展，从基于闭集标签到基于大规模视觉语言预训练的开放词汇检测，然而，当前的评估方法和数据集仅限于测试对象类型和参考表达的泛化能力，这并不能提供一个系统、细粒度和准确的 OVD 模型能力的基准。本文提出了一个名为 OVDEval 的新基准，包括 9 个子任务，并在常识知识、属性理解、位置理解和对象关系理解等方面进行评估。数据集经过精心创建，提供了具有挑战性的负样本，以考验模型对视觉和语言输入的真正理解。此外，我们还发现了在这些细粒度标签数据集上对模型进行基准测试时，流行的平均精度（AP）指标存在问题，并提出了一种称为非极大值抑制平均精度（NMS-AP）的新指标来解决这个问题。广泛的实验结果表明，现有的顶级 OVD 模型在除了简单对象类型之外的新任务上都失败了，证明了所提出数据集在指出当前 OVD 模型的弱点并引导未来研究方面的价值。此外，所提出的 NMS-AP 指标通过实验证明，它提供了对 OVD 模型的更真实评估，而传统 AP 指标产生了误导性的结果。数据可在 https://github.com/om-ai-lab/OVDEval 上获取。

Aug, 2023

PONE：一种新型开放域生成对话系统自动评估度量

通过对三类自动评估方法的系统比较，本文认为基于学习的指标是评估开放领域生成对话系统最有效的方法。为了解决由于负采样机制导致的数据集不平衡和低质问题，本文提出了一种新的基于学习的评估指标 PONE，并经过实验证明，在使用增强的正样本和有价值的负样本后，可以显著提高与人类判断的相关性，平均相关性提高达 13.18％。

Apr, 2020

走向开放词汇学习：综述

本文综述了开放式词汇学习的最新动态，强调了其与零样本学习、开放集识别和超出分布检测等相关概念的比较，并详细讨论了检测和分割等视觉场景理解任务下的具体应用。研究发现，开放式词汇学习方法在实践中更具广泛性、有效性和实用性，未来仍有许多探索余地。

Jun, 2023

用于评估问答模型的语义答案相似度

本论文提出了一种基于交叉编码器的语义答案相似度估计评估度量标准（SAS），与七种现有度量标准进行比较，并通过人类判断的语义相似性评估数据集检验其性能。结果表明，基于最近的 Transformer 模型的语义相似度度量标准与传统的词汇相似度度量标准在新创建的数据集和相关工作的一个数据集上的人类评价更加相关。通过语义相似性度量标准可以提高问答模型评测的准确性。

Aug, 2021

关于语言模型在视觉概念语义相似度评估方面的可解释性研究

这篇研究探讨了高性能预训练语言模型的表现，并提出了一些可解释的评估指标用于理解检索实例的概念质量，并对具有明显查询语义的对抗性干预进行了测试，揭示了不透明指标中的漏洞并显示了学习语言表示中的模式。

Sep, 2022

语义相似性分类任务中模型与评估数据集策划的界限定位

该研究展示了预训练模型和开放评估数据集的局限性对于评估二元语义相似性分类任务的性能的影响，强调了数据的收集方式的重要性，同时强调了不同数据集、嵌入技术和距离度量之间的性能差异。

Nov, 2023

利用分类数据集和它们的语义层次对视觉语言模型进行开放式视觉问答基准测试

通过提出创新的评估方法并修正现有的视觉问答基准，我们的研究旨在推进我们对文本生成视觉语言模型能力的理解，提出了一种基于著名视觉分类数据集的新型视觉问答基准，可以对文本生成视觉语言模型进行细粒度评估，并与辨别性视觉语言模型进行比较。我们建议利用标签空间的语义层次结构为细粒度分类任务中的粗略答案提出自动生成的后续问题，以改善评估模型预测的传统自然语言处理和基于语言模型的度量标准。我们进行了人工评估研究，基于这项研究，我们决定采用最终的度量标准。我们将我们的基准应用于一套视觉语言模型，并详细比较了它们在对象、行为和属性分类方面的能力。我们的研究为更精确、有意义的评估奠定基础，促进了视觉语言建模领域的有针对性进展。

Feb, 2024

利用大型语言模型改进自动 VQA 评估

借助大型语言模型的上下文学习能力，我们提出了一个更好的 VQA 评估指标，该指标在多个 VQA 模型和基准测试中与人类判断更好地相关，希望广泛采用我们的指标以更好地估计 VQA 任务的研究进展。

Oct, 2023

OntoSeg: 使用本体相似性的文本分割新方法

本文提出了一种基于本体相似性的文本分割方法，使用 Hierarchical Agglomerative Clustering 算法生成一种树形分层结构，用于表征文本的概念结构，从而实现在不同粒度级别上的线性文本分割，实验证明该方法具有很高的分割质量。

Nov, 2015