Oct, 2024

草莓田中的规划:评估和改进LRM o1的规划与调度能力

TL;DR本研究针对大语言模型(LLM)在规划能力上的不足,提出了一种新的大型推理模型(LRM)o1的评估方法。研究显示,o1在规划与调度基准测试中表现优于传统自回归LLM,但代价较高且无法保证生成结果的正确性。通过将o1模型与外部验证器结合,构建LRM-Modulo系统,可以在提高性能的同时确保输出的正确性。