Jun, 2024
推理的流程:具有发散思维的 LLM 策略的高效训练
Flow of Reasoning: Efficient Training of LLM Policy with Divergent Thinking
Fangxu Yu, Lai Jiang, Haoqiang Kang, Shibo Hao, Lianhui Qin
TL;DR通过 Flow of Reasoning(FoR)这一高效的 LLM 训练方法,能够在很少的训练数据的情况下,发现多样化高质量的解决方案,并且在三项任务中(包括具身化推理、数学谜题解决和逻辑推理)显著超越当前最先进的方法。