通过符号化推理保持逻辑的准确性
提出 Faithful CoT 框架以实现准确性和真实性的协同作用,通过将推理任务分解为翻译和问题求解两个阶段,使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。
Jan, 2023
利用逻辑链思维 (LogiCoT) 的神经符号框架,大规模语言模型提供了更强的零编码链式思维推理能力。实验证明了逻辑增强的推理范式在算术、常识、符号、因果推断和社会问题等多个领域的语言任务中的有效性。
Sep, 2023
我们提出了 Chain of Code (CoT) 这一简单但非常有效的扩展方法,通过鼓励语言模型将语言子任务格式化为编程中的伪代码,以期改进语言模型驱动的推理,并通过 “思考代码” 的方式扩大语言模型能够正确回答的推理问题范围。
Dec, 2023
使用大型语言模型来生成 Prolog 程序以解决数学问题,在 GSM8K 基准测试中,我们的 Prolog 算术问题解决方法在三个不同的大型语言模型中胜过了 Chain of Thought。我们提出对真值谓词进行排列组合,以通过数据增强方法来增加训练的健壮性。
May, 2024
研究表明 Chain-of-Thought 提示可以显著改善大型语言模型的性能,特别是在涉及数学或推理的复杂任务中。本文首先对这些问题的潜在机制进行了理论方面的探讨, 然后通过构建的方式证明了带有 CoT 的自回归机器人可以解决基本算术方程问题和决策制定问题,并且具有动态编程方面的潜在应用。
May, 2023
该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架,使得答案推断可以更好地利用基于多模态信息的生成的理由,并取得了比先前最先进的 LLM(GPT-3.5)高 16 个百分点(75.17%-> 91.68%准确度)的性能,在 ScienceQA 基准测试中甚至超过了人类的表现。
Feb, 2023
本研究的主要目标是使用预先训练的语言模型来进行推理,特别是在推理时使用解释以增强上下文学习。作者将神经符号方法重新引入到这个任务中,并将语言模型作为逻辑程序员,以在知识库中迭代推理。实验结果表明,相对于上下文学习策略, LMLP 在演绎和长度归纳基准测试中表现得更加优秀。
Dec, 2022
在大型语言模型中,通过分析模型预测的变化,研究发现 Chain-of-Thought 推理在某些任务中对答案预测的条件具有较大影响,但随着模型规模的增大,模型对大多数任务的推理越来越不可信,因此建议在选择模型规模和任务时谨慎使用 Chain-of-Thought 推理。
Jul, 2023
通过与外部知识的交互,我们提出了一个名为知识驱动的思路连贯(KD-CoT)的框架,以验证和修改语言模型的推理过程,以缓解幻觉和错误传播,尤其在回答知识密集型任务时。
Aug, 2023