Jun, 2023

大型语言模型真的是良好的逻辑推理者吗?从演绎、归纳和举例推理的综合评估

TL;DR本文针对大型语言模型的逻辑推理能力进行全面评估,选择 15 个经典数据集,评估模型的零点、单点和三点能力,提出客观和主观的细化评估方法,归纳出 LLMs 的逻辑推理能力的优势和不足并提出未来方向。