Jun, 2024
ScaleBiO: 面向LLM数据重新加权的可扩展的双层优化
ScaleBiO: Scalable Bilevel Optimization for LLM Data Reweighting
TL;DR本研究提出了第一种可扩展实例,称为ScaleBiO,通过与一种称为LISA的新型算法相结合,使软件在八个A40 GPU上扩展到34亿参数的大型语言模型(LLM),标志着在实际应用场景中首次成功应用双层优化于大型LLM。从实证上来说,对于不同规模的模型,包括GPT-2,LLaMA-3-8B,GPT-NeoX-20B和Yi-34B,通过数据重加权广泛实验验证了ScaleBiO的有效性,其中双层优化成功地过滤了无关的数据样本,并选择了信息量较大的样本。从理论上来说,ScaleBiO确保了学习到的数据权重的最优性,并具有匹配传统的一阶平滑凸优化双层优化范式的收敛保证。