Oct, 2024

自然语言生成元评估中相关性度量的分析与评估

TL;DR本研究解决了自然语言生成(NLG)自动评估指标与人工评估之间相关性的差异问题。通过分析12种常见的相关性度量,发现不同的度量方法影响元评估结果,提出了三种反映元评估能力的视角,最终发现采用全局分组和Pearson相关性度量的组合表现最佳,具有较好的区分能力和一致性。