BriefGPT.xyz
大模型
Ask
alpha
关键词
evaluation practice
搜索结果 - 2
ACL
分类评估指标的深入研究及对常见评估实践的批判性反思
分类系统在无数篇论文中进行评估。然而,我们发现评估实践通常是模糊的。经常情况下,指标选择是没有依据的,模糊的术语容易引起误解。本文从偏倚和普遍性的直观概念出发,对常用的评估指标进行分析,考虑到论文中所表达的期望。通过对度量选择的全面理解,我
→
PDF
2 months ago
ACL
图像字幕的透明人工评估
本文介绍了一种基于机器和人生成的 MSCOCO 数据集上的图像标注模型的评估协议 THumB,用于评估图像文本的质量。我们的实验发现,使用图像特征的近期度量值 CLIPScore 更符合人类评判标准。
PDF
3 years ago
Prev
Next