May, 2024

GIST:贪婪独立集合阈值用于多样数据摘要

TL;DR我们提出了一种新颖的子集选择任务,称为最小距离多样化数据汇总(MDDS),它在机器学习中有广泛的应用,例如数据采样和特征选择。我们介绍了 GIST 算法,它通过将一系列最大独立集问题近似为双准则贪婪算法来实现 MDDS 的 2/3 近似保证。我们还证明了对于任意 ε>0,存在一个补充的(2/3+ε)- 近似难度。最后,我们通过实证研究证明了 GIST 在合成数据上优于现有方法,并且对于一个真实的图像分类实验,GIST 用于 ImageNet 的单次子集选择也表现出色。