Jun, 2023

STEPS:顺序任务中顺序推理能力的基准测试

TL;DR提出了一个基于序列任务的具有挑战性的基准测试 STEPS,它包括两个子任务设置,聚焦于确定食谱中给定下一步的合理性和从多项选择题中选择合理步骤,通过实验结果说明了序列任务中的常识推理具有挑战性,并且提示方法在 STEPS 上仍然明显落后于基于调优的方法。