Apr, 2024

推进具有偏好树的 LLM 推理通才

TL;DREurus 是一套针对推理进行优化的大型语言模型,通过基于 Mistral-7B 和 CodeLlama-70B 的微调,在数学、代码生成和逻辑推理问题的多种基准测试中取得了领先的结果。通过在五个任务上全面进行 12 项测试对比,Eurus-70B 在 LeetCode 上达到了 33.3% 的一次通过准确率,并且在 TheoremQA 上达到了 32.6%,这两个具有挑战性的基准测试远远超过了现有开源模型 13.3% 以上的性能。Eurus 的强大性能主要归功于 UltraInteract,这是我们专门为复杂推理任务设计的大规模、高质量的对齐数据集,可用于监督微调和偏好学习。通过对偏好学习算法进行深入探究,我们发现某些已建立的偏好学习算法在推理任务中的适用性较差,相比其在一般对话中的有效性。受此启发,我们推导出了一种新颖的奖励建模目标,与 UltraInteract 结合使用可获得强大的奖励模型。