Dec, 2023

CLadder: 评估语言模型因果推理能力的基准

TL;DR通过创建一个新的自然语言处理任务,基于因果图和问题,研究大型语言模型在因果推理方面的能力,并提出一种特定的激励策略来评估和分析这种推理能力。