Feb, 2024

TreeEval:通过树规划实现大型语言模型的无需基准测试评估

TL;DR通过树评估方法 (TreeEval) 对不同参数规模的 LLM 进行评估,避免了数据泄漏问题,并使用约 45 个问题与 AlpacaEval2.0 实现了最高的相关系数。