LLM 是否可以成为个性化的法官?
采用人类和大型语言模型作为评判者(即人类和 LLM 评判者)来评估现有 LLM 的性能已经引起了关注。然而,这种方法同时引入了人类和 LLM 评判者的潜在偏见,对评估结果的可靠性提出了质疑。本文提出了一种针对 LLM 和人类评判者的 5 种偏见的新框架。我们整理了一个包含 142 个样本的数据集,涉及修订后的布鲁姆分类法,并进行了数千次人类和 LLM 评估。结果表明,人类和 LLM 评判者在不同程度上都容易受到扰动,并且即使是最先进的评判者也存在相当大的偏见。我们进一步利用它们的弱点对 LLM 评判者进行了攻击。我们希望我们的工作能让社区意识到人类和 LLM 评判者在面对扰动时的脆弱性,以及开发健壮评估系统的紧迫性。
Feb, 2024
这篇论文通过对多种语言模型作为判断者的性能进行全面研究,发现了使用 Cohen 的 kappa 作为测度对齐度的重要性,并比较了不同模型之间的判断数据;该研究发现 Llama-3 70B 和 GPT-4 Turbo 语言模型的表现优于人类,然而在排名考生模型方面,JudgeLM-7B 和词汇判断器 Contains 比人类的对齐度低多达 34 分。通过错误分析和其他研究,包括指导长度和仁慈偏见的影响,该论文为今后在判断者角色上使用语言模型提供了宝贵的经验教训。
Jun, 2024
本研究介绍了使用强大的大型语言模型(LLM)作为评价者来评估基于 LLM 的聊天助手的方法,并引入了多个类别的评价指标。研究结果表明,LLM 评价者可以很好地匹配人类的偏好,且其评估结果与人类评估者的结果一致。
Jun, 2023
评估 NLP 模型时,使用 LLM-generated 判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的 20 个 NLP 数据集的 JUDGE-BENCH,并对 11 个当前的 LLM 进行全面评估,涵盖公开权重和专有模型,以验证其模拟注释的能力。我们的评估结果表明,每个 LLM 在与人工判断的相关性方面在不同数据集上存在很大的差异。我们得出结论,LLM 尚不具备系统替代 NLP 中的人类评审员的能力。
Jun, 2024
通过引入一种新的基准测试,MLLMs 作为评判者,本研究揭示了 MLLMs 在评估任务中的能力,并发现 MLLMs 在对人员喜好的评估和排名任务中存在显著差异,同时面临着多样的偏见、幻觉反应和不一致问题,强调了对 MLLMs 进一步改进和研究的迫切需求。
Feb, 2024
利用大型语言模型对其他语言模型进行评估的研究发现,尽管基于开源模型的精调评价模型在领域内测试集上达到了很高的准确率,甚至超过了 GPT4,但它们是任务特定的分类器,其泛化能力和公正性明显不如 GPT4。
Mar, 2024
利用贝叶斯统计模型,研究了大型语言模型(LLMs)在人类行为预测方面的类人特性,发现 LLMs 不能准确捕获人类数据的各项细节,但在聚合和条件水平的预测方面可以有效适配人类数据,显示出某些不同的方法可以使其得到充分的分布式预测。
Jun, 2024
使用 LLm 评估员小组 (PoLL) 替代单个大模型如 GPT4 进行评估,可以在减少评估成本的情况下,展现较少内部模型偏见,并且在三种不同的评估环境和六个不同数据集上表现更好。
Apr, 2024
本研究旨在探讨大型语言模型作为可靠的评估器,用于评估文本生成模型生成的摘要的事实一致性,并发现其在事实性评分中的局限性。
Nov, 2023
通过对大规模语言模型进行微调以构建可扩展的评判模型,提出了一种有效评估大规模语言模型的方法,并成功应用于新的基准测试中,获得了最佳表现。
Oct, 2023