Apr, 2024

大型语言模型的演化推测及其在基准测试中的性能预测

TL;DRPhyloLM 是一种应用系统发育算法于大型语言模型的方法,它探索了它们的微调关系并预测其性能特征。通过利用系统发育距离度量,我们构建了树状图,满意地捕捉到不同 LLM 族群(包括 77 个开源和 22 个闭源模型)。此外,系统发育距离能够预测基准测试中的性能(我们测试了 MMLU 和 ARC),从而实现对 LLM 能力的时间和成本效益估计。该方法将遗传概念转化为机器学习,为推断 LLM 的发展、关系和能力提供了工具,即使在透明训练信息缺失的情况下。