JudgeLM:经过优化的大型语言模型是可扩展的法官
本研究介绍了使用强大的大型语言模型(LLM)作为评价者来评估基于 LLM 的聊天助手的方法,并引入了多个类别的评价指标。研究结果表明,LLM 评价者可以很好地匹配人类的偏好,且其评估结果与人类评估者的结果一致。
Jun, 2023
这篇论文通过对多种语言模型作为判断者的性能进行全面研究,发现了使用 Cohen 的 kappa 作为测度对齐度的重要性,并比较了不同模型之间的判断数据;该研究发现 Llama-3 70B 和 GPT-4 Turbo 语言模型的表现优于人类,然而在排名考生模型方面,JudgeLM-7B 和词汇判断器 Contains 比人类的对齐度低多达 34 分。通过错误分析和其他研究,包括指导长度和仁慈偏见的影响,该论文为今后在判断者角色上使用语言模型提供了宝贵的经验教训。
Jun, 2024
利用大型语言模型对其他语言模型进行评估的研究发现,尽管基于开源模型的精调评价模型在领域内测试集上达到了很高的准确率,甚至超过了 GPT4,但它们是任务特定的分类器,其泛化能力和公正性明显不如 GPT4。
Mar, 2024
使用 LLm 评估员小组 (PoLL) 替代单个大模型如 GPT4 进行评估,可以在减少评估成本的情况下,展现较少内部模型偏见,并且在三种不同的评估环境和六个不同数据集上表现更好。
Apr, 2024
通过引入一种新的基准测试,MLLMs 作为评判者,本研究揭示了 MLLMs 在评估任务中的能力,并发现 MLLMs 在对人员喜好的评估和排名任务中存在显著差异,同时面临着多样的偏见、幻觉反应和不一致问题,强调了对 MLLMs 进一步改进和研究的迫切需求。
Feb, 2024
通过引入一种名为 PandaLM 的大型语言模型来更公平地评估大型语言模型,该模型不依赖于基于 API 的评估,能够相对简要地比对大量 GPT 系列模型的效果,从而实现了最优超参数选择的自动化、健壮和可靠评估基准的确定。
Jun, 2023
本文发现了采用大型语言模型(LLMs)作为评判器来评分候选模型生成内容质量的评估范式中的系统偏差。作者提出了两种校准策略来解决这个问题。经过广泛实验,这种方法成功缓解了评估偏差,与人类判断更加接近。为了促进更加强大的大型语言模型比较的未来研究,作者将文章中的技术集成到一个易于使用的工具包 FairEval 中,同时结合了人工注释。
May, 2023
通过对大型语言模型的评估,本文发现 LLM-based evaluators 在多语言评估方面可能存在偏差,并需要使用本地语言的数据集进行校准。
Sep, 2023
我们提出了一个具有 13B 参数的生成式评测模型 Auto-J,通过训练用户查询和大规模真实场景下 LLM 生成的响应,以适应多样化的评估协议,包括对比评估和单一响应评估,并提供详细分析和案例研究来揭示我们方法的潜力。
Oct, 2023
研究了大型语言模型在法律领域的应用,通过设计基于大型语言模型的实用基准解决方案,并在法律判决预测任务上测试,发现类似案例和多项选择选项对大型语言模型的领域知识回忆至关重要,同时也揭示了信息检索系统在某些情况下超过了大型语言模型与信息检索系统的组合,从而使大型语言模型的角色变得多余。
Oct, 2023