Jul, 2024

熵定律:数据压缩与LLM性能背后的故事

TL;DR基于对大语言模型性能与数据选择的理论推导和实证评估,我们发现模型性能与训练数据的压缩比例呈负相关,通过提出的基于低压缩比例的数据子集优先选择方法ZIP,在不同的大语言模型框架和对齐阶段得出了优越的实验结果。