Sep, 2023

无需训练仍可受益。运用能量函数引导的蒙特卡罗树搜索释放大语言模型的数学推理能力

TL;DR通过使用蒙特卡洛树搜索和轻能量函数,我们对经过微调的大型语言模型进行了改进,提高了数学推理的正确性和步骤,从而在不需要进一步微调或 RLHF 对齐的情况下,将经过微调的模型的一次通过率显著提高。