Oct, 2023

MuSR: 对多步软推理进行思维链限制的测试

TL;DR我们介绍了 MuSR 数据集,这是一个用于评估语言模型在自然语言叙述中进行多步骤软推理任务的数据集,其中数据实例是由神经符号综合生成算法创建的复杂推理实例,同时我们评估了一系列大语言模型和提示技术在该数据集上的表现,并表征了像链式思维这样的技术在进行强大推理时仍存在的差距。