BriefGPT.xyz
Ask
alpha
关键词
judge models
搜索结果 - 3
评判裁决者:评估 LLM 裁决者的一致性和脆弱性
这篇论文通过对多种语言模型作为判断者的性能进行全面研究,发现了使用 Cohen 的 kappa 作为测度对齐度的重要性,并比较了不同模型之间的判断数据;该研究发现 Llama-3 70B 和 GPT-4 Turbo 语言模型的表现优于人类,
→
PDF
18 days ago
法官的判断:对 LLMs 中两两比较评估的位置偏见的系统调查
LLM-as-a-Judge 存在固有的偏见,特别是位置偏见,这项研究使用一种框架来系统研究和量化位置偏见,并通过评估实现验证,发现不同评委和任务之间的偏见存在显著差异。研究为评估提供了多维度的框架,指导评委模型的选择,并为未来的研究提供了
→
PDF
24 days ago
LLM 评估中作为法官的 LLM 的经验研究:精调法官模型是任务特定的分类器
利用大型语言模型对其他语言模型进行评估的研究发现,尽管基于开源模型的精调评价模型在领域内测试集上达到了很高的准确率,甚至超过了 GPT4,但它们是任务特定的分类器,其泛化能力和公正性明显不如 GPT4。
PDF
4 months ago
Prev
Next