基于人类能力框架的视觉数据集和模型评估

Sep, 2024

基于人类能力框架的视觉数据集和模型评估

On Evaluation of Vision Datasets and Models using Human Competency Frameworks

Rahul Ramachandran, Tejal Kulkarni, Charchit Sharma, Deepak Vijaykeerthy, Vineeth N Balasubramanian

TL;DR本研究解决了计算机视觉中模型和数据集评估的不足，尤其是单一准确率指标的问题。通过引入项目反应理论（IRT），该论文提供了一种新的评估方法，允许对多个模型和数据集项进行更丰富的分析。最重要的发现是，IRT能够有效提高模型校准和数据子集选择的能力，从而增强模型和数据集的比较分析。

Abstract

Evaluating models and datasets in Computer Vision remains a challenging task, with most leaderboards relying solely on accuracy. While accuracy is a popular metric for Model Evaluation, it provides only a coarse

发现论文，激发创造

无需人类响应模式的学习潜在参数：人工群体的项目反应理论

本文提出了在深度神经网络产生的人工群众中使用生成的反应模式(RP)来学习IRT模型，并证明了这种方法在两个NLP任务中通过定量和定性分析学习IRT模型的有效性。通过训练集过滤中使用隐含的难度项参数的用例，以及人类预期和机器RP所估计难度不匹配的情况。

Aug, 2019

数据集是否存在政治性？计算机视觉数据集开发中的学科价值观

本文采用结构化和主题内容分析研究了计算机视觉数据集的文档记录，强调了计算机视觉数据集作者重视效率、普遍性、客观性和模型工作的做法，而这些做法与社交计算实践相矛盾。研究人员提出了在数据集创建和管理过程中更好地融入这些价值观的建议。

Aug, 2021

基于项目反应理论的算法综合评估

在本文中，我们提出了一个基于修改过的IRT模型的框架，用于评估算法组合在数据集存储库中的性能，同时揭示算法性能的重要方面，例如一致性和异常性。我们测试了这个框架在广泛应用的算法组合上，展示了这种方法作为一种具有洞察力的算法评估工具的广泛适用性，并且IRT参数的可解释性提供了对算法组合的更深入理解。

Jul, 2023

FACET：计算机视觉评估基准的公平性

计算机视觉模型在性别和肤色等属性方面存在已知的性能差异。本论文提出了一个名为FACET（计算机视觉公平性评估）的新基准，它是一个大型、公开可用的评估集，包括32,000张图片，用于图像分类、目标检测和分割等常见视觉任务。我们通过对FACET中的每张图像进行手动标注，包括感知肤色和发型类型等与人相关的属性，手动绘制边界框，并标记诸如唱片骑师或吉他手等精细的与人相关的类别。我们利用FACET对最先进的视觉模型进行基准测试，并展示潜在的性能差异和挑战。我们的研究结果显示，分类、检测、分割和视觉定位模型在人口属性和属性交叉上存在性能差异。这些伤害表明，在这些视觉任务中，并不是所有的人都能得到公平和公正的对待。我们希望使用我们的基准测试结果能够为更加公平、更加稳健的视觉模型做出贡献。FACET在该https URL上公开可用。

Aug, 2023

探索数据质量的数据集规模指标

现代计算机视觉基础模型是在大量数据的基础上进行训练的，这带来了巨大的经济和环境成本。最近的研究表明，提高数据质量可以显著减少对数据数量的需求。但是，在计算机视觉中，什么构成数据质量？我们认为，给定数据集的质量可以分解为不同的样本级和数据集级成分，而前者比后者得到了更深入的研究。我们通过监控这些成分，利用我们提供的关键指标，研究人员和实践者可以更好地预测模型的性能，以其准确性和对分布变化的鲁棒性来衡量。

Nov, 2023

可扩展的项目反应理论模型学习

Item Response Theory (IRT) models leverage coresets for scalable learning of latent abilities and difficulty characteristics in the context of large-scale assessments and data analysis problems.

Mar, 2024

一种高效的模型评估框架：分层、抽样和估计

模型性能评估是机器学习和计算机视觉中的关键而昂贵的任务。在本文中，我们提出了一种模型评估的统计框架，包括分层、抽样和估计组成部分。我们的实验表明，通过基于准确的模型性能预测进行k-means聚类的分层方法能够提供比传统的简单随机抽样更为精确的准确度估计。

Jun, 2024

站在巨人的肩膀上

本研究解决了传统混淆矩阵评估指标如精确度和F1评分的局限性，这些指标未能考虑数据复杂性和结果质量。通过引入项目反应理论（IRT），本文提出了一种补充传统指标的新方法，以便更好地评估模型在实例级别的表现，并发现IRT分数在66%的传统指标分析中具有显著不同的贡献，表明其在模型选择中的潜在影响。

Sep, 2024

站在巨人的肩膀上

本研究解决了传统混淆矩阵评价指标（如精度和F1分数）只提供定量分析而忽视数据复杂性和结果质量的局限性。创新性地引入了心理测量指标，如项目反应理论（IRT），为混淆矩阵增添了评估隐性特征的新层面，显著提高了举例分析的能力。研究发现，IRT评分与66%经典指标的贡献存在97%的信心，表明这一方法的潜在影响力。

Sep, 2024

AutoIRT：利用自动化机器学习校准项目反应理论模型

本研究解决了传统项目反应理论（IRT）模型在计算机自适应测试（CAT）中校准效率低的问题。提出了一种多阶段拟合程序，利用自动化机器学习工具加速建模过程，显著提高了模型的校准性和预测性能。研究结果表明，该方法在Duolingo英语测试中相比现有方法表现出更高的准确度和更好的分数预测。

Sep, 2024