BriefGPT.xyz
May, 2025
基于上下文的贡献测量用于自动数据选择
ICon: In-Context Contribution for Automatic Data Selection
HTML
PDF
Yixin Yang, Qingxiu Dong, Linli Yao, Fangwei Zhu, Zhifang Sui
TL;DR
本研究针对现有数据选择方法在指令调优中的局限性,提出了一种新的无梯度方法ICon,利用上下文学习的隐性微调特性来测量样本贡献。实验结果表明,使用ICon选择的15%数据,训练的模型性能超越全数据集并优于传统选择方法,展示了ICon在数据选择中的计算效率和有效性。
Abstract
Data Selection
for instruction tuning is essential for improving the performance of
Large Language Models
(LLMs) and reducing training cost. However, existing automated selection methods either depend on computat
→