May, 2023

大型语言模型不是公正的评估器

TL;DR本文发现了采用大型语言模型(LLMs)作为评判器来评分候选模型生成内容质量的评估范式中的系统偏差。作者提出了两种校准策略来解决这个问题。经过广泛实验,这种方法成功缓解了评估偏差,与人类判断更加接近。为了促进更加强大的大型语言模型比较的未来研究,作者将文章中的技术集成到一个易于使用的工具包 FairEval 中,同时结合了人工注释。