大型语言模型用于数学推理的双向指导优化

Mar, 2024

大型语言模型用于数学推理的双向指导优化

Dual Instruction Tuning with Large Language Models for Mathematical Reasoning

Yongwei Zhou, Tiejun Zhao

TL;DR介绍了利用大型语言模型进行指令调优的最新进展，提出了一种双向指令调优策略，通过前向和后向推理任务来改善语言模型对数学推理的理解与执行能力。通过广泛实验证明，这种策略适用于多种数学推理任务并具有领域通用性。

Abstract

Recent advancements highlight the success of instruction tuning with large language models (LLMs) utilizing chain-of-thought (CoT) data for mathematical reasoning tasks. Despite the fine-tuned LLMs, challenges pe

instruction tuning large language models chain-of-thought mathematical reasoning dual instruction tuning

发现论文，激发创造

mCoT: 多语言指导调整以提升语言模型的推理一致性

通过多语言推理一致性研究，我们构建了第一个大规模的多语言数学推理数据集 mCoT-MATH，然后引入多语言 CoT 指令调节以提高模型的推理能力和一致性。我们的 7B 参数模型 mCoT 在各种语言上展现出惊人的一致性，并且在性能上优于或与更大规模的闭源和开源模型相媲美。

Jun, 2024

通过潜变量推断训练思维链

大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释，一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而，我们提出了一种微调策略，尝试通过使用思维链提示最大化生成正确答案的`` 边际 '' 对数似然，大致平均所有可能的解释。我们使用受自学习推理器、备忘录式唤醒 - 休眠、马尔可夫性分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡罗 - 期望最大化 (EM) 算法来解决条件于正确答案的解释后验分布的采样问题，并采用一种新颖的控制变量技术，随着模型的改进，将逐渐降低梯度估计的方差。将我们的技术应用于 GSM8K 和 BIG-Bench Hard 中的任务，我们发现这种 MCMC-EM 微调技术通常比 STaR 或带有或不带有思维链提示的微调方法在留存样例上提高模型准确性。

Nov, 2023

大型语言模型是推理教师

本研究提出了 Fine-tune-CoT 方法，该方法利用非常大的语言模型以生成推理样本并通过微调来教授较小的模型，从而在较小的模型中实现了大量的推理能力优化。

Dec, 2022

xCoT: 跨语言指导调试用于跨语言思维链推理

利用跨语言指令微调框架（xCOT）将高资源语言的知识转移至低资源语言，并借助多语言同意加速多语言指令微调，通过跨语言蒸馏进一步促进语言转移，实验证明了 xCOT 在不同语言之间减少差距上的优越性。

Jan, 2024

超越模仿：从推理涤纶中学习关键推理步骤的双重思维链

使用基于错误的驱动关键推理步骤蒸馏（EDIT）方法，可以更有效地帮助小型语言模型学习重要的推理步骤，而不仅仅是简单的微调，验证了其在基准推理数据集上的有效性。

May, 2024

自我完善指导调优用于对齐语言模型中的推理

我们提出了自我改进指导调整方法，通过引导较小语言模型进行自我改进，以实现对推理能力的进一步发展。此方法通过在大型语言模型提供示范的基础上，将推理能力从较大语言模型传输到较小语言模型，然后使用优化策略使得被指导的模型自我改进能力。在常识与数学推理任务上的结果表明，该方法在领域内外场景均显著优于指导调整方法，并使得较小语言模型与较大语言模型的推理能力逐渐趋于一致。

May, 2024

使用顺序指令对大型语言模型进行微调

大语言模型（LLMs）在单个查询中难以遵循一系列指令，从而可能忽略或错误解释其中的一部分，这影响了它们在需要多个中间步骤的复杂问题（例如多语言（翻译然后回答）和多模态（字幕然后回答）任务）中的性能。我们通过使用开源 LLMs（如 LLaMA-2 70B 和 Mixtral-8x7B）进行实证验证。针对当今数据中顺序指令的稀缺性，我们提出了顺序指令调整，这是一种简单而有效的策略，用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务，我们发现，顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术，我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。

Mar, 2024

指令链式编排：大型语言模型上的组合指令调整

改进大型语言模型的细化调整方法，通过使用多样的组合指令集合，提高了模型对不同任务的泛化性能；引入了链式指令的新概念（CoI），使模型能够处理由多个子任务组成的复合指令，将模型性能在多语言摘要生成任务中进行了验证。

Feb, 2024

对比教学调节

指令调优是一种改善大型语言模型对未知任务性能的有前途的方法。然而，当前的大型语言模型在面对未知指令时表现出有限的稳健性，当相同的指令以稍微变形或语言风格变化的形式表达时会生成不一致的输出。这种行为表明大型语言模型对文本变化的稳健性和对未见指令的泛化能力存在缺陷，可能引发不可靠性问题。基于此，我们提出了对比指令调优，该方法通过最大化语义上等效的指令实例对的隐藏表示之间的相似性，最小化不同语义的实例对之间的相似性。为了促进这一方法，我们通过改写任务指令来扩充现有的 FLAN 集合。在 PromptBench 基准测试上的实验证明，对比指令调优（CoIN）能够使大型语言模型在字符、词、句子和语义级别上对未知指令的稳健性得到持续提升，平均准确率提高了 2.5%。

Feb, 2024

大型语言模型中忠实思维链路推理的困难性

大语言模型（LLM）在关键领域，如医疗保健中得到越来越多的应用，为了确保这些模型生成的链式思维（CoT）推理能够忠实地捕捉其基本行为，我们探索了三种常用方法 —— 上下文学习、微调和激活编辑 —— 来指导 LLM 的行为，以提高 CoT 推理的准确性，然而我们的实证分析表明：这些方法在提高 CoT 推理的准确性方面取得的成果有限，只在受控情境中略有性能提升，激活编辑几乎没有成功，而微调和上下文学习的改进效果仅在部分推理和真实问答评估中表现出来，总结来说，我们的工作强调了从 LLMs 中获取准确 CoT 推理的困难性，提示当前的方法可能无法解决这一复杂挑战。

Jun, 2024