BriefGPT.xyz
大模型
Ask
alpha
关键词
human and large language models
搜索结果 - 1
人类还是 LLM 作为法官?对判断偏见的研究
采用人类和大型语言模型作为评判者(即人类和 LLM 评判者)来评估现有 LLM 的性能已经引起了关注。然而,这种方法同时引入了人类和 LLM 评判者的潜在偏见,对评估结果的可靠性提出了质疑。本文提出了一种针对 LLM 和人类评判者的 5 种
→
PDF
5 months ago
Prev
Next