Mar, 2024

LLM 评估中作为法官的 LLM 的经验研究:精调法官模型是任务特定的分类器

TL;DR利用大型语言模型对其他语言模型进行评估的研究发现,尽管基于开源模型的精调评价模型在领域内测试集上达到了很高的准确率,甚至超过了 GPT4,但它们是任务特定的分类器,其泛化能力和公正性明显不如 GPT4。