通过组合微调语言模型学习执行复杂任务
我们提出了一种粗细链式思维(CoF-CoT)方法,将自然语言理解任务分解为多个推理步骤,以便大型语言模型学习获取和利用解决不同粒度任务所需的关键概念,并利用基于语义的抽象意义表示(AMR)结构化知识作为中间步骤,捕捉话语的细微差别和多样性结构,并理解它们的不同层次之间的联系。我们的方法在零样本和少样本多领域设置下,证明了对大型语言模型在多粒度自然语言理解任务中的辅助作用。
Oct, 2023
改进大型语言模型的细化调整方法,通过使用多样的组合指令集合,提高了模型对不同任务的泛化性能;引入了链式指令的新概念(CoI),使模型能够处理由多个子任务组成的复合指令,将模型性能在多语言摘要生成任务中进行了验证。
Feb, 2024
通过逐步提示的基于句法分析的分解,本研究发现了更多语义分析任务中的挑战。这一最优方法使我们在 CFQ 上取得了最新的技术成果,同时只需要传统方法所需训练数据的 1%。由于我们方法的普适性,我们期望类似的方法将在知识密集型应用中取得新的成果。
Sep, 2022
本研究提出了 Fine-tune-CoT 方法,该方法利用非常大的语言模型以生成推理样本并通过微调来教授较小的模型,从而在较小的模型中实现了大量的推理能力优化。
Dec, 2022
通过研究 CoT 在 transformer 的上下文学习中的影响,揭示 CoT 的成功归结于将组合函数的上下文学习分解为两个不同的阶段,并证明了 CoT 显著降低了上下文学习的样本复杂度并便于学习比非 CoT 方法更复杂的函数。
May, 2023
大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释,一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而,我们提出了一种微调策略,尝试通过使用思维链提示最大化生成正确答案的`` 边际 '' 对数似然,大致平均所有可能的解释。我们使用受自学习推理器、备忘录式唤醒 - 休眠、马尔可夫性分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡罗 - 期望最大化 (EM) 算法来解决条件于正确答案的解释后验分布的采样问题,并采用一种新颖的控制变量技术,随着模型的改进,将逐渐降低梯度估计的方差。将我们的技术应用于 GSM8K 和 BIG-Bench Hard 中的任务,我们发现这种 MCMC-EM 微调技术通常比 STaR 或带有或不带有思维链提示的微调方法在留存样例上提高模型准确性。
Nov, 2023
本研究提出了一种基于场景图的链式思维(Compositional Chain-of-Thought,CCoT)方法,通过在大型多模态模型(LMM)中利用场景图表示来提取组成性知识,从而改进了多种视觉语言(VL)组成性基准的性能以及多模态基准的性能。
Nov, 2023
微调语言模型会在特定任务上产生性能提升,但对其他任务可能造成能力抑制。为了恢复预训练能力,通过对任务进行翻译使其远离语言模型微调分布,发现可以恢复上下文学习能力,并使聊天机器人生成有害内容。
Sep, 2023
研究发现,预训练的转换语言模型在很多 NLP 任务上表现出色;然而,这些模型在短语级别的表示中,除了词汇内容外,缺乏复杂的组合短语信息,进一步的 fine-tuning 只能在情感任务中局部提高性能,而在重新释义任务中则由于数据集中可能存在干扰信号的原因而不能提供改进。
May, 2021
通过研究大型语言模型在数据组成、数学推理、代码生成和精细调整策略等方面的能力,发现不同能力展现出不同的扩展模式,较大的模型在相同数据量下表现更好;数据组成在低数据量下会改善各种能力,而在高数据量下可能导致能力冲突;而我们提出的双阶段混合精细调整策略能够解决多个能力的学习问题。
Oct, 2023