May, 2024
GIST:贪婪独立集合阈值用于多样数据摘要
GIST: Greedy Independent Set Thresholding for Diverse Data Summarization
TL;DR我们提出了一种新颖的子集选择任务,称为最小距离多样化数据汇总(MDDS),它在机器学习中有广泛的应用,例如数据采样和特征选择。我们介绍了GIST算法,它通过将一系列最大独立集问题近似为双准则贪婪算法来实现MDDS的2/3近似保证。我们还证明了对于任意ε>0,存在一个补充的(2/3+ε)-近似难度。最后,我们通过实证研究证明了GIST在合成数据上优于现有方法,并且对于一个真实的图像分类实验,GIST用于ImageNet的单次子集选择也表现出色。