BriefGPT.xyz
Ask
alpha
关键词
llm-as-a-judge
搜索结果 - 4
LLM 是否可以成为个性化的法官?
基于个性化评判的高可信度大型语言模型在评估上提供了更可靠和可扩展的方法,并显示出与人类判断相当甚至超出人类在高可信度样本上的表现。
PDF
19 days ago
法官的判断:对 LLMs 中两两比较评估的位置偏见的系统调查
LLM-as-a-Judge 存在固有的偏见,特别是位置偏见,这项研究使用一种框架来系统研究和量化位置偏见,并通过评估实现验证,发现不同评委和任务之间的偏见存在显著差异。研究为评估提供了多维度的框架,指导评委模型的选择,并为未来的研究提供了
→
PDF
24 days ago
基于优化的提示注入攻击 LLM-as-a-Judge
LLM-as-a-Judge 与大型语言模型相关的文本信息,存在着优于传统人工评估的表现,并且对于注入攻击的鲁棒性依然具有开放性问题。本研究引入一种名为 JudgeDeceiver 的基于优化的注入攻击方法,精确地针对 LLM-as-a-J
→
PDF
3 months ago
使用 MT-Bench 和 Chatbot Arena 判断 LLM 作为法官
本研究介绍了使用强大的大型语言模型(LLM)作为评价者来评估基于 LLM 的聊天助手的方法,并引入了多个类别的评价指标。研究结果表明,LLM 评价者可以很好地匹配人类的偏好,且其评估结果与人类评估者的结果一致。
PDF
a year ago
Prev
Next