关键词reference-free evaluation metrics
搜索结果 - 2
- ACLFLEUR:基于大型多模态模型的图像字幕解释性无参考评估度量
借助大型多模型,本文提出了一种解释性的无参考度量方法 FLEUR,用以评估图像说明。FLEUR 不需参考说明即能对图像说明进行评估,并提供评分的解释。通过引入评分平滑化以尽可能与人类判断接近,并对用户定义的等级标准具有鲁棒性,FLEUR 在 - ACL文本生成参考无关评估中的伪相关性
本研究发现参考无关的自然语言生成系统的评估指标(即用于摘要和对话生成的评估指标)可能会依赖于与诸如单词重叠,困惑度和长度等指标的虚假相关性。同时,我们注意到当评估最先进的抽象化摘要系统时,这些指标具有高错误率,但可以通过明确设计避免参考无关