揭示语言模型中的潜在思维链向量
通过使用迭代的引导选择,我们介绍了迭代链式思考(Iter-CoT)方法,该方法可以使大型语言模型(LLM)自主纠正错误,同时选择具有适度难度的挑战性问题作为样本,从而增强LLM对于不同难度的推理任务的泛化能力。实验结果表明Iter-CoT方法在11个数据集上展现出卓越的性能表现。
Apr, 2023
本研究发现 Large Language Models 的 Chain-of-Thought Reasoning (思维的串联过程)能够提供合理的解释,但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识,这可能导致人们过度信任 LLMs 的预测结果,因此有必要针对模型解释的忠实度进行有针对性的评估和改进,特别是在社会偏见问题方面。
May, 2023
使用T5预训练模型实现了图形思维推理模型,提高了基于文本推理任务GSM8K的性能和面向多模态的推理任务ScienceQA的准确率,通过较少的骨干模型参数与基于700M参数的Multimodal-CoT模型获得相当的结果,探索了非线性思考的建模方法。
May, 2023
提出了一个开源评估套件链式思维中心,用于评估大型语言模型在多步推理能力方面的性能,并针对一系列有挑战性的应用场景提供基准测试,目前的结果表明,模型规模与推理能力密切相关,需要更多开源社区的努力来构建更好的基础模型和探索RLHF。
May, 2023
本文介绍了一种名为Symbolic Chain-of-Thought Distillation (SCoTD)的方法,在巨大的语言模型的注释和参数的指导下,训练参数远低于50B的较小模型,在几种常识基准测试中证明了在有监督和少样本学习环境下可以提高性能。
Jun, 2023
通过链式思维调整提升小型蒙特卡罗模型(MLMs)在自然语言理解(NLU)任务上的表现,实现逐步思考的两步推理框架。对层次分类和关系抽取进行实验证明CoTT优于基准方法,取得了先进的性能。
Oct, 2023
通过在语言模型中引入人类类似的启发式和捷径策略并开发零样本提示策略,以优化Chain-of-Thought推理,同时引入ShortcutQA数据集用于评估和提升人工智能的推理效率。
Jun, 2024
大语言模型(LLM)在关键领域,如医疗保健中得到越来越多的应用,为了确保这些模型生成的链式思维(CoT)推理能够忠实地捕捉其基本行为,我们探索了三种常用方法——上下文学习、微调和激活编辑——来指导LLM的行为,以提高CoT推理的准确性,然而我们的实证分析表明:这些方法在提高CoT推理的准确性方面取得的成果有限,只在受控情境中略有性能提升,激活编辑几乎没有成功,而微调和上下文学习的改进效果仅在部分推理和真实问答评估中表现出来,总结来说,我们的工作强调了从LLMs中获取准确CoT推理的困难性,提示当前的方法可能无法解决这一复杂挑战。
Jun, 2024
通过分析在不同设置下的CoT方法,从Hopfieldian视角提出了Read-and-Control方法,通过广泛实验验证了该框架对于理解CoT、识别推理错误和控制正确推理路径的能力。
Jun, 2024
模型尺度的急剧增加与链式思维启发等导航方法的结合,推动了语言模型推理能力的显著提升;然而,在许多基于推理的基准测试中,模型仍然难以实现组合泛化,并且离人类性能相差甚远。借鉴链式思维启发的成功,并受到上下文感知解码的启发,我们探索基于输入的对比方法以进一步鼓励链式思维启发产生的推理类型。虽然在数据集和模型之间稳定这些结果仍需搞清楚,但我们发现的改进值得进一步研究基于输入的导航方法在上下文感知推理中的应用。
Jul, 2024