May, 2023
思维链中枢: 评估大型语言模型推理性能的持续努力
Chain-of-Thought Hub: A Continuous Effort to Measure Large Language
Models' Reasoning Performance
TL;DR提出了一个开源评估套件链式思维中心,用于评估大型语言模型在多步推理能力方面的性能,并针对一系列有挑战性的应用场景提供基准测试,目前的结果表明,模型规模与推理能力密切相关,需要更多开源社区的努力来构建更好的基础模型和探索RLHF。