May, 2024

语言模型的因果评估

TL;DR通过引入评估语言模型因果推理能力的综合基准 CaLM,该论文提出了四个模块的基础分类法以及一个由 126,334 个数据样本组成的 CaLM 数据集,并对 28 个领先的语言模型进行了全面评估,并给出了 50 个高级经验发现,以提供未来语言模型开发的有价值指导。