提高 LLM 推理能力：用强化上下文修剪推动少样本学习的极限

Dec, 2023

提高 LLM 推理能力：用强化上下文修剪推动少样本学习的极限

Boosting LLM Reasoning: Push the Limits of Few-shot Learning with Reinforced In-Context Pruning

Xijie Huang, Li Lyna Zhang, Kwang-Ting Cheng, Mao Yang

TL;DR提出了一种名为 CoT-Max 的新方法，通过解决有限样例选择和上下文窗口长度限制的挑战，将 few-shot CoT 学习推进到改进 LLM 数学推理能力的极限，并在多个 LLMs 和 5 个数学数据集上显著优于 CoT 和 few-shot 提示基准，取得了多达 4.55％的绝对改进。

Abstract

large language models (llms) have shown impressive capabilities in various tasks, yet they still struggle with math reasoning. Despite eff

large language models math reasoning few-shot learning cot-max llms

发现论文，激发创造

大型语言模型是零样本推理器

该研究发现预训练的大型语言模型可以成为良好的零样本推理器，提出了一种零样本的 CoT 方法，将其用于多种复杂的推理任务并取得了显著的性能提升。

May, 2022

大型语言模型是推理教师

本研究提出了 Fine-tune-CoT 方法，该方法利用非常大的语言模型以生成推理样本并通过微调来教授较小的模型，从而在较小的模型中实现了大量的推理能力优化。

Dec, 2022

mCoT: 多语言指导调整以提升语言模型的推理一致性

通过多语言推理一致性研究，我们构建了第一个大规模的多语言数学推理数据集 mCoT-MATH，然后引入多语言 CoT 指令调节以提高模型的推理能力和一致性。我们的 7B 参数模型 mCoT 在各种语言上展现出惊人的一致性，并且在性能上优于或与更大规模的闭源和开源模型相媲美。

Jun, 2024

通过潜变量推断训练思维链

大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释，一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而，我们提出了一种微调策略，尝试通过使用思维链提示最大化生成正确答案的`` 边际 '' 对数似然，大致平均所有可能的解释。我们使用受自学习推理器、备忘录式唤醒 - 休眠、马尔可夫性分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡罗 - 期望最大化 (EM) 算法来解决条件于正确答案的解释后验分布的采样问题，并采用一种新颖的控制变量技术，随着模型的改进，将逐渐降低梯度估计的方差。将我们的技术应用于 GSM8K 和 BIG-Bench Hard 中的任务，我们发现这种 MCMC-EM 微调技术通常比 STaR 或带有或不带有思维链提示的微调方法在留存样例上提高模型准确性。

Nov, 2023

CoT 集合：通过思维链微调改善语言模型的零样本和少样本学习

通过不同程度的 fine-tuning，基于 Flan-T5 的大型语言模型学习了 Chain-of-Thought 推理并表现出更强的 few-shot learning 能力，使得在 27 个数据集上的平均零 - shot 准确率提高了 4.34％和 2.44％，并在 4 个特定领域的任务上获得了进一步的改进。

May, 2023

大型语言模型的过度推理和冗余计算

LLMs tend to generate lengthy and unnecessary calculations on the math QA dataset GSM8K-Zero, even though the questions can be answered without any calculations.

Jan, 2024

小型语言模型是否能帮助大型语言模型更好地进行推理？：LM 引导下的思路链

我们引入了一种新颖的框架，LM-Guided CoT，它利用轻量级（即 <1B）语言模型（LM）指导黑盒大型（即> 10B）LM 在推理任务中的工作。具体而言，轻量级 LM 首先为每个输入实例生成理论依据，接着使用冻结的大型 LM 根据轻量级 LM 生成的理论依据预测任务输出。我们的方法在资源利用上高效，只需要训练轻量级 LM。我们通过知识蒸馏和强化学习来优化模型，其中蒸馏和任务导向的奖励信号用于强化学习。我们通过多跳摘要问答基准 HotpotQA 和 2WikiMultiHopQA 来评估我们的方法。实验结果表明，我们的方法在回答预测准确性方面优于所有基准方法。我们还发现，强化学习有助于模型生成更高质量的理论依据，并提高问答的性能。

Apr, 2024

大型语言模型中演化算法引导的零射链条思维推理

大语言模型通过应用无需预先训练的思维链式促进方法展示了卓越的表现，并展示了出色的推理能力。本文介绍了一种新的零样本促进方法，利用进化算法为大语言模型动态生成多样的促进方式，通过选择适合的促进方式提高模型的理解能力。详细实验结果表明，相较于当前的零样本推理方法，在 GPT-3.5-turbo 和 GPT-4 上，我们的方法表现出更优越的性能。此外，深入的分析实验突显了本方法在各种推理任务中的适应性和有效性。

Feb, 2024

大型语言模型的检索增强多模态思维链推理

使用检索机制动态自动选择基于跨模态相似性的示例，以提升多模态推理中大型语言模型的性能。对各类示例进行分组并分别从不同组中检索示例，以增加示例的多样性。通过一系列实验，我们证明了我们的方法在多模态推理任务中取得了显著的性能改进。

Dec, 2023

打破链条：大型语言模型能成为捷径推理器

通过在语言模型中引入人类类似的启发式和捷径策略并开发零样本提示策略，以优化 Chain-of-Thought 推理，同时引入 ShortcutQA 数据集用于评估和提升人工智能的推理效率。

Jun, 2024