通过算法思维链条理解 LLM 训练数据中的噪音效应

Feb, 2024

通过算法思维链条理解 LLM 训练数据中的噪音效应

Understanding the Effect of Noise in LLM Training Data with Algorithmic Chains of Thought

Alex Havrilla, Maia Iyer

TL;DR这篇论文研究了大型语言模型在预训练和微调过程中的噪声影响，通过引入可定制的有噪执行轨迹生成框架和定义静态噪声和动态噪声的方式，发现微调模型对高强度的静态噪声有很强的抗扰能力，但对低强度的动态噪声则表现较差，与此同时，少样本提示模型对静态噪声更为敏感。

Abstract

During both pretraining and fine-tuning, large language models (\textbf{LLMs}) are trained on trillions of tokens of text of widely varying quality. Both phases of training typically involve heuristically filtering out ``low-quality'' or \textit{noisy} training samples, yet little is k

large language models noise chain of thought traced integer framework dynamic noise

发现论文，激发创造

通过潜变量推断训练思维链

大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释，一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而，我们提出了一种微调策略，尝试通过使用思维链提示最大化生成正确答案的`` 边际 '' 对数似然，大致平均所有可能的解释。我们使用受自学习推理器、备忘录式唤醒 - 休眠、马尔可夫性分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡罗 - 期望最大化 (EM) 算法来解决条件于正确答案的解释后验分布的采样问题，并采用一种新颖的控制变量技术，随着模型的改进，将逐渐降低梯度估计的方差。将我们的技术应用于 GSM8K 和 BIG-Bench Hard 中的任务，我们发现这种 MCMC-EM 微调技术通常比 STaR 或带有或不带有思维链提示的微调方法在留存样例上提高模型准确性。

Nov, 2023

学习带有噪音基础模型

该论文通过广泛的实验证明，虽然在预训练中存在一定的噪声可以提高域内性能，但它总是破坏域外性能，然后提出了一种调整方法来减轻噪声的不良影响并提高泛化能力。

Mar, 2024

通过外部引导对预训练语言模型进行噪声抗干扰微调

使用嘈杂标签，通过引导大型语言模型来提高预训练语言模型（PLM）的微调过程，以区分干净样本和嘈杂样本，并提供嘈杂标签之外的辅助信息，从而增强学习过程。

Nov, 2023

对大型语言模型进行微调以进行翻译：杂噪语言数据对齐是否足够？

目前在使用大型语言模型（LLM）进行细调以进行翻译方面的实践中，研究发现 LLMs 在仅用 32 个训练实例进行细调后表现出很强的翻译能力，并且单向细调能够使 LLMs 实现多方向翻译，但是选择翻译方向非常重要，使用英语在目标语言侧进行细调可能导致任务误解，从而阻碍对非英语语言的翻译。在平行数据的目标语言侧引入噪声时也会出现类似的问题，尤其当目标语言在 LLM 的预训练中具有较好的表示时。相比之下，对于不充分表示的语言，噪声的影响较小。研究发现，成功对齐取决于教会模型保持 “表面” 关注，从而避免学习错误的偏差而影响翻译。

Apr, 2024

CoT 集合：通过思维链微调改善语言模型的零样本和少样本学习

通过不同程度的 fine-tuning，基于 Flan-T5 的大型语言模型学习了 Chain-of-Thought 推理并表现出更强的 few-shot learning 能力，使得在 27 个数据集上的平均零 - shot 准确率提高了 4.34％和 2.44％，并在 4 个特定领域的任务上获得了进一步的改进。

May, 2023

CoF-CoT：面向多域 NLU 任务的粗到细思维链路提示技术增强大型语言模型

我们提出了一种粗细链式思维（CoF-CoT）方法，将自然语言理解任务分解为多个推理步骤，以便大型语言模型学习获取和利用解决不同粒度任务所需的关键概念，并利用基于语义的抽象意义表示（AMR）结构化知识作为中间步骤，捕捉话语的细微差别和多样性结构，并理解它们的不同层次之间的联系。我们的方法在零样本和少样本多领域设置下，证明了对大型语言模型在多粒度自然语言理解任务中的辅助作用。

Oct, 2023

通过思维链激励评估大型语言模型的性别偏见

对于大型语言模型，通过链判断（Chain-of-Thought）激励可以在扩展任务上实现准确的增量预测，但其内化和复制社会偏见仍存在问题，因此需要对其在性别偏见上的影响进行研究。通过创建一个包含女性、男性和有性别意味的职业单词列表的非扩展任务用于构建一个评测基准，研究结果表明，大部分语言模型在不考虑链判断的情况下会做出带有社会偏见的预测，而链判断能够减少语言模型中的潜意识社会偏见，并促使公平的预测。

Jan, 2024

思维链调优：掩码语言模型在自然语言理解中也能逐步思考

通过链式思维调整提升小型蒙特卡罗模型（MLMs）在自然语言理解（NLU）任务上的表现，实现逐步思考的两步推理框架。对层次分类和关系抽取进行实验证明 CoTT 优于基准方法，取得了先进的性能。

Oct, 2023

NoisyTune：加入少量噪声能更好地微调预训练语言模型

该研究旨在提出一种简单而有效的方法名为 NoisyTune，通过在微调之前为 PLMs 的参数添加一些噪声来帮助更好地微调 PLMs，在 GLUE 英语基准和 XTREME 多语言基准上进行的广泛实验表明 NoisyTune 可以持续增强不同 PLMs 在不同下游任务的微调。

Feb, 2022

语言模型并不总是说他们想的：链状思维提示中的不忠实解释

本研究发现 Large Language Models 的 Chain-of-Thought Reasoning （思维的串联过程）能够提供合理的解释，但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识，这可能导致人们过度信任 LLMs 的预测结果，因此有必要针对模型解释的忠实度进行有针对性的评估和改进，特别是在社会偏见问题方面。

May, 2023