Jun, 2024

ScaleBiO: 面向 LLM 数据重新加权的可扩展的双层优化

TL;DR本研究提出了第一种可扩展实例,称为 ScaleBiO,通过与一种称为 LISA 的新型算法相结合,使软件在八个 A40 GPU 上扩展到 34 亿参数的大型语言模型(LLM),标志着在实际应用场景中首次成功应用双层优化于大型 LLM。从实证上来说,对于不同规模的模型,包括 GPT-2,LLaMA-3-8B,GPT-NeoX-20B 和 Yi-34B,通过数据重加权广泛实验验证了 ScaleBiO 的有效性,其中双层优化成功地过滤了无关的数据样本,并选择了信息量较大的样本。从理论上来说,ScaleBiO 确保了学习到的数据权重的最优性,并具有匹配传统的一阶平滑凸优化双层优化范式的收敛保证。