Jun, 2024

CaT-BENCH: 基准测试计划中因果和时间依赖的语言模型理解能力

TL;DR通过引入 CaT-Bench 基准测试评估 LLMs 对步骤之间的因果依赖关系的理解能力,研究发现 LLMs 在此方面仍有改进空间。