Oct, 2024

CompassJudger-1:一体化评估模型助力模型评估与演进

TL;DR本研究针对大语言模型(LLMs)在评估中的不准确性和人类评估的高成本进行改进,提出了开源的一体化评估模型CompassJudger-1。该模型具备多种评估功能,并搭建了新的基准JudgerBench,以统一评估不同模型的性能,促进评估方法的进步。