BriefGPT.xyz
大模型
Ask
alpha
关键词
llm evaluators
搜索结果 - 3
大规模语言模型生成中的幻觉检测:基于词元概率的方法
使用两个简单的分类器和从其他 LLM 评估器获得的四个数值特征,本文引入了一种监督学习方法,取得了有希望的结果,并在三个不同基准测试中超越了当前最先进的成果。
PDF
a month ago
大型语言模型的评估存在不一致和偏见
本研究通过使用 SummEval 数据集进行一系列分析,证实了大型语言模型作为评估器在以下方面存在偏见和不一致性:(1)体现对低困惑度文本的偏好;(2)显示具有偏见的评分分布;(3)经历多属性判断时的锚定效应。此外,我们分享了配置大型语言模
→
PDF
2 months ago
评价大型语言模型在指令遵循方面的表现
这篇研究通过引入一个具有挑战性的元评估基准 LMMBar,调查了大型语言模型 (LLMs) 在评估指导遵循生成文本方面的效力,发现不同评估器对 LMMBar 的性能表现不同,最高分的评估器仍有改进的空间,并提出了一套新颖的提示策略来缩小 L
→
PDF
9 months ago
Prev
Next