Apr, 2024

SHED: 基于 Shapley 的自动数据集精炼用于指令微调

TL;DRSHED 是一种基于 Shapley 值的自动化数据集精炼框架,用于对指令微调。经由 SHED 筛选的数据集具有可转移性,可在不同 LLMs 之间重复使用并保持高性能。SHED 在各种任务和 LLMs 上比最先进的方法表现出卓越的性能。尤其值得注意的是,由 SHED 选择的仅占原始数据的 10%的数据集达到了与完整数据集相当甚至超过其性能的水平。