Oct, 2022

生成文本的无参考评估的局限性

TL;DR我们的研究表明:参考文本的自由度量在评估生成文本方面存在固有的偏见和限制,因此建议将其作为分析和理解模型行为的诊断工具,而不是评估模型任务表现的指标。