Nov, 2022

通过语义一致性衡量大型语言模型的可靠性

TL;DR本研究针对更新的预训练语言模型(PLMs)在语义一致性方面的问题,提出了一种衡量语义一致性的度量标准,并在 TruthfulQA 数据集上评估多个 PLMs 的性能,发现我们提出的语义一致性度量标准比传统的基于词汇一致性的度量标准更可靠,也与人类评估输出一致性的程度更为相关。