Nov, 2024
Varco Arena: 一种无参考基准的大型语言模型的竞赛方法
Varco Arena: A Tournament Approach to Reference-Free Benchmarking Large
Language Models
TL;DR本研究旨在解决当前大型语言模型(LLMs)基准评估方法依赖预定义参考输出的问题,使得评估难以灵活适应迅速发展的模型能力。我们提出的Varco Arena通过单淘汰赛制进行无参考的模型输出直接比较,提供了更可靠的模型排名与评估灵活性,实验证明该方法与当前的Elo基准模型更好对齐,具有显著提升效果。