关键词math reasoning benchmarks
搜索结果 - 2
- OpenMathInstruct-1:一个 180 万数学指导调优数据集
利用合成数据集训练大型语言模型(LLMs)的巨大潜力已被展示,尤其是用于获得有针对性的技能。本研究基于开源 LLMs 的最新进展和引导创新,通过某些粗暴的扩展构建了一个包含 180 万个问题 - 解决方案对的数学指导调整数据集 OpenMa - 带判别器引导的语言模型多步推理
该研究提出了一种基于 stepwise decoding 方法的 Guiding Multi-step ReAsoning with a CorrectnEss Discriminator (GRACE) ,它使用判别模型来调整 LM 的解