通过算法思维链条理解 LLM 训练数据中的噪音效应
大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释,一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而,我们提出了一种微调策略,尝试通过使用思维链提示最大化生成正确答案的`` 边际 '' 对数似然,大致平均所有可能的解释。我们使用受自学习推理器、备忘录式唤醒 - 休眠、马尔可夫性分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡罗 - 期望最大化 (EM) 算法来解决条件于正确答案的解释后验分布的采样问题,并采用一种新颖的控制变量技术,随着模型的改进,将逐渐降低梯度估计的方差。将我们的技术应用于 GSM8K 和 BIG-Bench Hard 中的任务,我们发现这种 MCMC-EM 微调技术通常比 STaR 或带有或不带有思维链提示的微调方法在留存样例上提高模型准确性。
Nov, 2023
使用嘈杂标签,通过引导大型语言模型来提高预训练语言模型(PLM)的微调过程,以区分干净样本和嘈杂样本,并提供嘈杂标签之外的辅助信息,从而增强学习过程。
Nov, 2023
目前在使用大型语言模型(LLM)进行细调以进行翻译方面的实践中,研究发现 LLMs 在仅用 32 个训练实例进行细调后表现出很强的翻译能力,并且单向细调能够使 LLMs 实现多方向翻译,但是选择翻译方向非常重要,使用英语在目标语言侧进行细调可能导致任务误解,从而阻碍对非英语语言的翻译。在平行数据的目标语言侧引入噪声时也会出现类似的问题,尤其当目标语言在 LLM 的预训练中具有较好的表示时。相比之下,对于不充分表示的语言,噪声的影响较小。研究发现,成功对齐取决于教会模型保持 “表面” 关注,从而避免学习错误的偏差而影响翻译。
Apr, 2024
通过不同程度的 fine-tuning,基于 Flan-T5 的大型语言模型学习了 Chain-of-Thought 推理并表现出更强的 few-shot learning 能力,使得在 27 个数据集上的平均零 - shot 准确率提高了 4.34%和 2.44%,并在 4 个特定领域的任务上获得了进一步的改进。
May, 2023
我们提出了一种粗细链式思维(CoF-CoT)方法,将自然语言理解任务分解为多个推理步骤,以便大型语言模型学习获取和利用解决不同粒度任务所需的关键概念,并利用基于语义的抽象意义表示(AMR)结构化知识作为中间步骤,捕捉话语的细微差别和多样性结构,并理解它们的不同层次之间的联系。我们的方法在零样本和少样本多领域设置下,证明了对大型语言模型在多粒度自然语言理解任务中的辅助作用。
Oct, 2023
对于大型语言模型,通过链判断(Chain-of-Thought)激励可以在扩展任务上实现准确的增量预测,但其内化和复制社会偏见仍存在问题,因此需要对其在性别偏见上的影响进行研究。通过创建一个包含女性、男性和有性别意味的职业单词列表的非扩展任务用于构建一个评测基准,研究结果表明,大部分语言模型在不考虑链判断的情况下会做出带有社会偏见的预测,而链判断能够减少语言模型中的潜意识社会偏见,并促使公平的预测。
Jan, 2024
通过链式思维调整提升小型蒙特卡罗模型(MLMs)在自然语言理解(NLU)任务上的表现,实现逐步思考的两步推理框架。对层次分类和关系抽取进行实验证明 CoTT 优于基准方法,取得了先进的性能。
Oct, 2023
该研究旨在提出一种简单而有效的方法名为 NoisyTune,通过在微调之前为 PLMs 的参数添加一些噪声来帮助更好地微调 PLMs,在 GLUE 英语基准和 XTREME 多语言基准上进行的广泛实验表明 NoisyTune 可以持续增强不同 PLMs 在不同下游任务的微调。
Feb, 2022
本研究发现 Large Language Models 的 Chain-of-Thought Reasoning (思维的串联过程)能够提供合理的解释,但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识,这可能导致人们过度信任 LLMs 的预测结果,因此有必要针对模型解释的忠实度进行有针对性的评估和改进,特别是在社会偏见问题方面。
May, 2023