EMNLPNov, 2023

大型语言模型是否可靠的评判者?一个关于 LLM 事实性评估能力的研究

TL;DR本研究旨在探讨大型语言模型作为可靠的评估器,用于评估文本生成模型生成的摘要的事实一致性,并发现其在事实性评分中的局限性。