Dec, 2023

提高 LLM 推理能力:用强化上下文修剪推动少样本学习的极限

TL;DR提出了一种名为 CoT-Max 的新方法,通过解决有限样例选择和上下文窗口长度限制的挑战,将 few-shot CoT 学习推进到改进 LLM 数学推理能力的极限,并在多个 LLMs 和 5 个数学数据集上显著优于 CoT 和 few-shot 提示基准,取得了多达 4.55%的绝对改进。