Sep, 2024

只需100个实例:通过测试少量实例预测新LLM在未见数据上的成功

TL;DR本研究解决了在新LLM上评估性能所需的大量任务实例评估问题。本文提出了一种新方法,通过测试少量参考实例并训练通用评估器,基于以前的LLM评估结果预测新LLM的性能。我们的实验证明,该方法在同一分布的实例上表现出与特定LLM评估器相当的效果,展现出显著的实用价值。