Oct, 2023

LoBaSS:衡量监督微调数据的可学习性

TL;DR利用数据的可学习性作为选择模型数据的主要标准,研究通过引入损失为基础的 SFT 数据选择方法(LoBaSS)来确保数据选择与模型能力的匹配,从而提高对话和数学领域的模型能力。LoBaSS 方法在仅使用总训练数据的 6% 的情况下,超过全数据微调方法,在使用 16.7% 的数据时,能够协调模型在对话和数学领域的能力,验证其有效性和适应性。