Jul, 2023

推理还是背诵?通过反事实任务探索语言模型的能力和限制

TL;DR该研究旨在研究当前语言模型的抽象推理能力,提出一种基于 “反事实” 任务变体的评估框架,在一系列 11 项任务中观察到对反事实变体的表现,但表明当前语言模型的表现往往会严重且一致地降级,提示需要更加仔细地解释语言模型的表现。