Jun, 2023

使用 MT-Bench 和 Chatbot Arena 判断 LLM 作为法官

TL;DR本研究介绍了使用强大的大型语言模型(LLM)作为评价者来评估基于 LLM 的聊天助手的方法,并引入了多个类别的评价指标。研究结果表明,LLM 评价者可以很好地匹配人类的偏好,且其评估结果与人类评估者的结果一致。