BriefGPT.xyz
Ask
alpha
关键词
direct assessment
搜索结果 - 4
PARIKSHA:多语言和跨文化数据上人类 LLM 评估者一致性的大规模调查
本研究评估了多语种大型语言模型的性能,发现 GPT-4o 和 Llama-3 70B 模型在大多数 Indic 语言中表现最佳。我们构建了两个评估设置的排行榜,并分析了人类评估和语言模型评估之间的一致性,发现在两两比较的设置下,人类和语言模
→
PDF
15 days ago
Prometheus 2:一个专门用于评估其他语言模型的开源语言模型
通过引入更强大的评估语言模型 Prometheus 2,我们解决了存在于开源评估语言模型中的问题,并达到了与人类和专有语言模型评价最高一致性和相似性的结果。
PDF
2 months ago
人类评估机器翻译中的超越力量
本文介绍了一种称为中期测试的评估方法,该方法在具有较小预算的情况下提供了更有效的评估方式,并可获得更高的评估功率和效率,这在机器翻译评估领域非常有用。
PDF
2 years ago
ACL
有界支持的高效在线标量注释
本文提出了一种高效的人工评分数据集构建以及系统质量评估方法,通过直接评估、网络成对排名汇总、混合法等三种评分方式来促进有效标注标量标签,并将其应用于数据集构建和系统评估,以提高与真值的相关性和评估的效率。
PDF
6 years ago
Prev
Next