Feb, 2024

无需真实标准的大型语言模型排名

TL;DR大语言模型的评估和排名是一个重要的问题,本研究提出了一种新的方法,在没有任何参考数据的情况下,通过考虑三元组模型相互评估来排名这些模型,实验证明该方法可靠地恢复接近真实的排名,为实际使用提供了可行的低资源机制。