May, 2023

评估自然语言生成评价指标:基于测量理论视角

TL;DR本文提出了一种基于测试设计的方法,用于概念化和评估自然语言生成评价指标的可靠性和有效性,并介绍了关于测量理论的核心概念及评估自然语言生成指标性能的关键方法。通过该框架的使用,本研究旨在促进设计、评估和解释可靠和有效的指标,最终为实际应用中健壮和效果良好的自然语言生成模型的提升做出贡献。