EMNLPNov, 2023
大型语言模型是否可靠的评判者?一个关于 LLM 事实性评估能力的研究
Are Large Language Models Reliable Judges? A Study on the Factuality Evaluation Capabilities of LLMs
Xue-Yong Fu, Md Tahmid Rahman Laskar, Cheng Chen, Shashi Bhushan TN
TL;DR本研究旨在探讨大型语言模型作为可靠的评估器,用于评估文本生成模型生成的摘要的事实一致性,并发现其在事实性评分中的局限性。