CoT 集合：通过思维链微调改善语言模型的零样本和少样本学习

May, 2023

CoT 集合：通过思维链微调改善语言模型的零样本和少样本学习

The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning

Seungone Kim, Se June Joo, Doyoung Kim, Joel Jang, Seonghyeon Ye...

TL;DR通过不同程度的 fine-tuning，基于 Flan-T5 的大型语言模型学习了 Chain-of-Thought 推理并表现出更强的 few-shot learning 能力，使得在 27 个数据集上的平均零 - shot 准确率提高了 4.34％和 2.44％，并在 4 个特定领域的任务上获得了进一步的改进。

Abstract

large language models (LLMs) have shown enhanced capabilities of solving novel tasks by reasoning step-by-step known as Chain-of-Thought (CoT) reasoning; how can we instill the same capability of reasoning step-by-step on →

large language models chain-of-thought reasoning instruction-tuning dataset few-shot learning capabilities unseen tasks

发现论文，激发创造

mCoT: 多语言指导调整以提升语言模型的推理一致性

通过多语言推理一致性研究，我们构建了第一个大规模的多语言数学推理数据集 mCoT-MATH，然后引入多语言 CoT 指令调节以提高模型的推理能力和一致性。我们的 7B 参数模型 mCoT 在各种语言上展现出惊人的一致性，并且在性能上优于或与更大规模的闭源和开源模型相媲美。

Jun, 2024

通过潜变量推断训练思维链

大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释，一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而，我们提出了一种微调策略，尝试通过使用思维链提示最大化生成正确答案的`` 边际 '' 对数似然，大致平均所有可能的解释。我们使用受自学习推理器、备忘录式唤醒 - 休眠、马尔可夫性分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡罗 - 期望最大化 (EM) 算法来解决条件于正确答案的解释后验分布的采样问题，并采用一种新颖的控制变量技术，随着模型的改进，将逐渐降低梯度估计的方差。将我们的技术应用于 GSM8K 和 BIG-Bench Hard 中的任务，我们发现这种 MCMC-EM 微调技术通常比 STaR 或带有或不带有思维链提示的微调方法在留存样例上提高模型准确性。

Nov, 2023

大型语言模型是推理教师

本研究提出了 Fine-tune-CoT 方法，该方法利用非常大的语言模型以生成推理样本并通过微调来教授较小的模型，从而在较小的模型中实现了大量的推理能力优化。

Dec, 2022

xCoT: 跨语言指导调试用于跨语言思维链推理

利用跨语言指令微调框架（xCOT）将高资源语言的知识转移至低资源语言，并借助多语言同意加速多语言指令微调，通过跨语言蒸馏进一步促进语言转移，实验证明了 xCOT 在不同语言之间减少差距上的优越性。

Jan, 2024

CoF-CoT：面向多域 NLU 任务的粗到细思维链路提示技术增强大型语言模型

我们提出了一种粗细链式思维（CoF-CoT）方法，将自然语言理解任务分解为多个推理步骤，以便大型语言模型学习获取和利用解决不同粒度任务所需的关键概念，并利用基于语义的抽象意义表示（AMR）结构化知识作为中间步骤，捕捉话语的细微差别和多样性结构，并理解它们的不同层次之间的联系。我们的方法在零样本和少样本多领域设置下，证明了对大型语言模型在多粒度自然语言理解任务中的辅助作用。

Oct, 2023

思维链调优：掩码语言模型在自然语言理解中也能逐步思考

通过链式思维调整提升小型蒙特卡罗模型（MLMs）在自然语言理解（NLU）任务上的表现，实现逐步思考的两步推理框架。对层次分类和关系抽取进行实验证明 CoTT 优于基准方法，取得了先进的性能。

Oct, 2023

CodeCoT 及其进展：学习像开发者一样编程和测试

采用自我审查和连续推导的方法，我们提出了一种名为 Code Chain-of-Thought（CodeCoT）的新策略，通过辅助 LLM 模型生成代码和改进输出，从而显著提高了代码生成的准确性。

Aug, 2023

大型语言模型中忠实思维链路推理的困难性

大语言模型（LLM）在关键领域，如医疗保健中得到越来越多的应用，为了确保这些模型生成的链式思维（CoT）推理能够忠实地捕捉其基本行为，我们探索了三种常用方法 —— 上下文学习、微调和激活编辑 —— 来指导 LLM 的行为，以提高 CoT 推理的准确性，然而我们的实证分析表明：这些方法在提高 CoT 推理的准确性方面取得的成果有限，只在受控情境中略有性能提升，激活编辑几乎没有成功，而微调和上下文学习的改进效果仅在部分推理和真实问答评估中表现出来，总结来说，我们的工作强调了从 LLMs 中获取准确 CoT 推理的困难性，提示当前的方法可能无法解决这一复杂挑战。

Jun, 2024

视觉 CoT：在多模态语言模型中释放连续思维推理

该论文提出了 Visual CoT，一种利用多模态大型语言模型（MLLMs）的推理能力的新型流程，通过结合可解释性认知链条（CoT）推理来处理复杂的视觉输入，并提供可解释的思路。我们收集并引入了 Visual CoT 数据集，该数据集包含 373k 个问题 - 答案对，通过中间边界框突出显示回答问题所必要的关键区域，能够评估在需要特定局部区域识别的场景中的 MLLMs 的性能。大量实验证明了我们的框架的有效性，并为更好的推理策略提供了启示。Visual CoT 数据集、基准和预训练模型可用于促进相关方向的进一步研究。

Mar, 2024

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023