Feb, 2024
TofuEval: 评估 LLL 在主题焦点对话摘要的虚幻现象
TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
Liyan Tang, Igor Shalyminov, Amy Wing-mei Wong, Jon Burnsky, Jake W. Vincent...
TL;DR单个文档新闻摘要在保真度方面取得了显著进展,但我们提出一种新的评估基准,研究在以话题为焦点的对话摘要领域中存在的事实一致性问题和虚构错误类型。