May, 2023

大型语言模型是否能像人类一样推断和产生分歧?

TL;DR本文研究大型语言模型在处理自然语言推理任务上的表现,并通过 Monte Carlo Reconstruction 和 Log Probability Reconstruction 两种方法评估其与人类理解的一致性,结果表明大型语言模型在 NLI 任务和人的理解差异分布方面表现不佳。