Feb, 2025

通过耦合令牌生成评估大规模语言模型

TL;DR本文解决了现有大规模语言模型评估中控制随机化的问题,提出了一种耦合自回归生成的因果模型,以实现不同模型在相同随机源下的响应比较。研究发现,耦合自回归生成在提供相同结论时,相较于传统自回归生成,样本需求减少了多达40%,并揭示了传统评估协议中的模型排名可能受到随机性影响,从而质疑了现有评估方法的有效性。