基于原型的数据集比较

ICCVSep, 2023

Prototype-based Dataset Comparison

Nanne van Noord

TL;DR数据集比较扩展了数据集检查的范畴，通过学习概念级原型，我们展示了无监督学习在发现视觉概念时的好处，并通过两个案例研究验证了我们的方法的优势。

Abstract

dataset summarisation is a fruitful approach to dataset inspection. However, when applied to a single dataset the discovery of visual concepts is restricted to those most prominent. We argue that a →

dataset summarisation visual concepts comparative approach dataset comparison concept-level prototypes

发现论文，激发创造

揭示潜在模式：研究数据集相似性、性能和泛化

通过添加一小部分未见图片到训练集中，我们的方法可以降低训练与注释成本，提高监督式深度学习模型的泛化性能，并在动态环境中对未见数据的模型性能提供估计。

Aug, 2023

这些数据集之间有何不同？

通过提出一套可解释性方法对比两个数据集，我们展示了这种方法在各种数据模式下的多功能性，不仅在解释质量和正确性方面优于相关方法，而且能够提供行动性的、互补的见解来有效理解和减轻数据集的差异。

Mar, 2024

跨数据集分析测试平台

本文开展了针对视觉图像识别中数据集偏见问题的大规模分析，通过将 12 个已有数据库组织成一个语料库，提供了一个有用的特征储存库以供未来研究使用。

Feb, 2014

你所见即你所得：使用深度神经网络的经验排名进行拓扑定位的数据集对比相似度

利用最相关的视觉记忆来定位或者事先预测定位的可能结果对于高效和稳健的视觉导航非常有用。我们提出了一种高度可扩展的工具 Visual DNA，用于比较图像数据集，鉴于本文中的深度架构在特定层面上通过匹配特征体积进行地点识别，我们使用分布度量来比较活体图像和多个先前记录的过往经验之间神经元激活统计的差异，发现这些差异与使用具有相同外观差距的过去经验进行定位的性能相关。我们验证了我们的方法在 Nordland 跨季节数据集以及牛津大学公园的数据中，展示了我们系统在候选经验的实际定位性能排序方面的出色能力。

Oct, 2023

DreamSim：使用合成数据学习人类视觉相似性的新维度

本文提出了一个全新的知觉度量标准 DreamSim，通过人类相似度判断数据集的研究得出，该标准可以全面评估图片的相似性，更关注于前景物体和语义内容及对颜色和布局敏感，并且具有很好的一般性能。

Jun, 2023

高效发现和有效评估视觉感知相似性：一项基准测试和更多

通过引入第一个大规模时尚视觉相似性基准数据集以及介绍新的高效标注方法，本文聚焦于视觉相似性，但所提出的方法和度量指标在不同领域中发现和评估知觉相似性具有更广泛的应用。

Aug, 2023

VizNet: 一个大规模可视化学习和基准库

本文介绍了 VizNet，它是一个包含了超过 3100 万个数据集的大规模语料库，从开放数据库和在线可视化画廊中编译而来。它提供了一个必要的公共基线，用于比较可视化的设计技术，并为自动化可视化分析开发基准模型和算法。我们展示了如何从实验结果中学习知觉有效性度量，并展示了它在测试数据集上的预测能力。

May, 2019

通过复杂性约束的描述性自编码实现可解释的概念相似度度量

图像相似度的量化是图像机器学习的一个关键版权问题。本文提出了一种基于概念相似性的图像相似度度量方法，通过生成逐渐复杂的图像描述来衡量相似度，该方法在图像对比和文本对比中表现优于现有基准，并通过指示差异描述粒度提供了解释性。

Feb, 2024

学习描述一对相似图片之间的差异

本文介绍了一项任务，即自动生成文本来描述两个相似图像之间的差异。我们通过众包获取了一组新的数据集，并提出了一种模型，该模型使用隐变量来根据像素聚类将不同的像素与输出句子对齐，以捕捉视觉显著性并实现语言和视觉的对准。

Aug, 2018

CDEvalSumm：神经摘要系统跨数据集评估的实证研究

本文通过跨数据集设置，对 11 种代表性的文本摘要模型在不同领域的 5 个数据集上的性能进行了深入分析，揭示了模型的架构和生成方式（抽象和抽取），以及预训练的嵌入式知识对模型泛化能力的影响。

Oct, 2020