Jun, 2024
CaT-BENCH: 基准测试计划中因果和时间依赖的语言模型理解能力
CaT-BENCH: Benchmarking Language Model Understanding of Causal and Temporal Dependencies in Plans
Yash Kumar Lal, Vanya Cohen, Nathanael Chambers, Niranjan Balasubramanian, Raymond Mooney
TL;DR通过引入 CaT-Bench 基准测试评估 LLMs 对步骤之间的因果依赖关系的理解能力,研究发现 LLMs 在此方面仍有改进空间。