ACLMay, 2023

infoVerse: 一种具有多维元信息的数据集特征化通用框架

TL;DR这篇论文提出了 infoVerse,一个基于模型驱动元信息的通用框架,用于数据集表征。它提供了一个新的特征空间,可以有效捕捉数据集的多维特征,并揭示了原始语义空间中不明显的数据集特征区域,可以指导用户(或模型)在探索、评估或注释时专注于哪些样本点。此外,论文还提出了一个新颖的基于 infoVerse 的采样方法,可以选择一组数据点,使其具有最大的信息量。最后,这些样本点在三个真实世界应用中表现出色,包括数据修剪,主动学习和数据注释。