提出Faithful CoT框架以实现准确性和真实性的协同作用,通过将推理任务分解为翻译和问题求解两个阶段,使用LM和确定性求解器分别实现。在10个推理数据集上进行比较并展示Faithful CoT框架的优越性。
Jan, 2023
通过将问题分解为子问题,强迫模型在不同的上下文中回答简单的子问题,可以显著提高模型生成推理的可靠性,并在一定程度上提升效能,从而有望验证LLM行为的正确性和安全性。
Jul, 2023
在大型语言模型中,通过分析模型预测的变化,研究发现Chain-of-Thought推理在某些任务中对答案预测的条件具有较大影响,但随着模型规模的增大,模型对大多数任务的推理越来越不可信,因此建议在选择模型规模和任务时谨慎使用Chain-of-Thought推理。
本文旨在通过知识蒸馏的方式将大型语言模型的推理能力传递给较小模型,提出了一种名为Sci-CoT的两阶段框架,该框架通过分离生成推理步骤和推理答案的过程,在科学问答任务中利用推理步骤更有效地进行推理,使得 8000 万参数的模型在 ARC-Easy 数据集的少样本情况下超过了 BLOOM-176B 的性能。
Aug, 2023
通过Multi-CoT一致知识蒸馏(MCC-KD)方法,我们提出了一种提升大型语言模型的推理能力、实现多样性和一致性的方法,并验证其在数学推理和常识推理的基准测试中的优秀性能和鲁棒泛化能力。
Oct, 2023
通过引入图引导的CoT提示方法,以问题/理由图为基础的图引导推理方法在多步骤推理中表现出优越性能。
Nov, 2023
使用检索机制动态自动选择基于跨模态相似性的示例,以提升多模态推理中大型语言模型的性能。对各类示例进行分组并分别从不同组中检索示例,以增加示例的多样性。通过一系列实验,我们证明了我们的方法在多模态推理任务中取得了显著的性能改进。
Dec, 2023
通过整合CoT推理、知识图谱和多模态的综合理解,KAM-CoT提出了一种在多模态任务中应对挑战并提高性能的框架,以更深层次的上下文理解降低幻觉并增强答案质量。
Jan, 2024
大型语言模型(LLMs)在生成连贯思路解释时展现出强大的推理能力,然而,之前的研究仅关注于回答的准确性,忽略了生成的连贯思路的正确性。本文通过利用知识图谱(KGs)深入探讨LLMs在多跳问题回答中的连贯思路推理能力。我们提出了一种新颖的区分性和生成性连贯思路评估范式,用于评估LLMs关于推理的知识和生成连贯思路的准确性。通过在两个多跳问题回答数据集上对5个不同家族的LLMs进行的实验证明,LLMs具有足够的知识进行推理,然而,LLMs生成的连贯思路的准确性与回答的准确性存在显著差异,表明它们经常通过错误的推理方法得出正确的答案。
Feb, 2024
大语言模型(LLM)在关键领域,如医疗保健中得到越来越多的应用,为了确保这些模型生成的链式思维(CoT)推理能够忠实地捕捉其基本行为,我们探索了三种常用方法——上下文学习、微调和激活编辑——来指导LLM的行为,以提高CoT推理的准确性,然而我们的实证分析表明:这些方法在提高CoT推理的准确性方面取得的成果有限,只在受控情境中略有性能提升,激活编辑几乎没有成功,而微调和上下文学习的改进效果仅在部分推理和真实问答评估中表现出来,总结来说,我们的工作强调了从LLMs中获取准确CoT推理的困难性,提示当前的方法可能无法解决这一复杂挑战。
Jun, 2024