Nov, 2023

LLM 作为自恋评估者:当自我膨胀影响评分

TL;DR本研究探讨了自然语言处理领域中生成文本内容的自动评估问题,特别是着重考察了基于语言模型的评估指标在摘要任务中是否存在对相应底层语言模型的有利偏差,并揭示出在无参考摘要的情况下,这种评估指标可能受到潜在偏见的影响,强调未来需要开发更可靠的评估协议。