BriefGPT.xyz
大模型
Ask
alpha
关键词
summeval dataset
搜索结果 - 2
大型语言模型的评估存在不一致和偏见
本研究通过使用 SummEval 数据集进行一系列分析,证实了大型语言模型作为评估器在以下方面存在偏见和不一致性:(1)体现对低困惑度文本的偏好;(2)显示具有偏见的评分分布;(3)经历多属性判断时的锚定效应。此外,我们分享了配置大型语言模
→
PDF
2 months ago
融合评估器与 LLMs:Fusion-Eval
利用大型语言模型进行评估的新方法 “Fusion-Eval” 在 SummEval 数据集上取得了 0.96 的 Spearman 相关性,超过了其他评估方法,在 LLM 评估领域树立了新的标准。
PDF
8 months ago
Prev
Next