Jun, 2024

多语言 FActScore 分析

TL;DR对 FActScore 在线性多语言模型生成的长文本进行研究,发现不同语言中的 LLMs 在事实提取和事实评分任务中表现出不同行为,并且知识源对 FActScore 的估计质量起着重要作用。使用维基百科作为知识源可能会阻碍中小资源语言长文本的真实 FActScore,但通过三种缓解方法,可以提高对所有语言的 FActScore 估计。