Jun, 2024

能否在长上下文中使用多样本情境学习来帮助 LLM 法官?更多观察,更好判断!

TL;DR使用大型语言模型作为评判器评估大型语言模型的性能,可能引入潜在的偏见,并对评估结果的可靠性提出关切。为了缓解这个问题,我们提出和研究两种版本的多示例上下文提示(加强和无监督),以帮助 GPT-4o 作为评判器进行单答案打分。基于设计的提示,我们研究了增加上下文示例数量对评估的一致性和质量的影响。此外,我们首次揭示了 GPT-4o 作为评判器在两两比较中存在的符号偏差,并提出了一种简单而有效的方法来缓解它。实验结果显示,先进的长上下文语言模型,如 GPT-4o,在多示例情况下的表现优于零示例情况。同时,实验结果进一步验证了符号偏差缓解方法的有效性。