BriefGPT.xyz
Ask
alpha
关键词
automatic evaluators
搜索结果 - 2
与人类判断相一致:大型语言模型评估者中的成对优先关系的作用
使用 Pairwise-preference Search(PAIRS)方法,通过对比评估候选文本,解决了大型语言模型(LLMs)在评估中出现的偏差与不连贯问题。
PDF
3 months ago
ICLR
大型语言模型作为评估者的认知偏差基准测试
大型语言模型(LLMs)作为通过简单提示和上下文学习的自动评估器已被证明有效。本研究汇集了四个不同规模范围的 15 个 LLMs,并通过系统之间的偏好排序来评估它们的输出响应,如 System Star 优于 System Square。我
→
PDF
9 months ago
Prev
Next