Aug, 2024

自然语言生成中的自动评测指标:当前评估实践的调查

TL;DR本研究聚焦于自然语言生成(NLG)任务中自动评测指标的使用现状,揭示了现有做法的不足,包括不当的指标选择、缺乏实施细节以及与人类评判的相关性缺失。同时,提出了改进建议,以提高该领域的评估规范性。