Feb, 2024

基于聚类敏感性采样的数据高效学习:基础模型与扩展

TL;DR我们研究数据选择问题,将利用 $k$-means 聚类和敏感性抽样方法,基于模型损失的嵌入表示,可选择一组典型样本,其平均损失与整个数据集的平均损失相对应,具有可证明的性质,并且在微调基础模型上表现优于最先进的方法,同时展示了它如何应用于线性回归,提供了一个更简单且可扩展性更强的抽样策略。