EMNLPOct, 2023

DialCoT 满足 PPO:在较小的语言模型中进行推理路径的分解与探索

TL;DR通过对话引导的思维链技术(DialCoT)在小型语言模型中有效提升推理能力,采用 PPO 算法优化模型的推理路径选择,实验结果显示与其他竞争方法相比显著提升性能。