Apr, 2024

CausalBench: 大型语言模型因果学习能力的综合评估

TL;DR本研究提出了一个全面的基准测试系统 CausalBench,旨在评估大型语言模型在理解因果关系方面的能力。通过包含三个与因果学习相关的任务,并结合不同难度的任务场景,该系统能够方便地比较多种大型语言模型与经典因果学习算法的性能。研究利用 CausalBench 评估了 19 种领先的大型语言模型,揭示了它们在各个方面的优势和弱点,并定量地探索了它们在不同场景中能力的上限。此外,研究还定量地呈现了不同信息源之间的差异,并揭示了大型语言模型在文本上下文和数值领域中对因果理解能力的差距。