BriefGPT.xyz
Ask
alpha
关键词
rank-biased overlap score
搜索结果 - 1
ICLR
大型语言模型作为评估者的认知偏差基准测试
大型语言模型(LLMs)作为通过简单提示和上下文学习的自动评估器已被证明有效。本研究汇集了四个不同规模范围的 15 个 LLMs,并通过系统之间的偏好排序来评估它们的输出响应,如 System Star 优于 System Square。我
→
PDF
9 months ago
Prev
Next