Adams 条件和似然比传递调节的推理
通过对十二个大型语言模型进行因果中介分析,本文发现大型语言模型在生成最终答案时并不可靠地使用中间推理步骤。为了解决这个问题,我们引入了 FRODO 框架,该框架通过使用隐式因果奖励函数生成正确的推理步骤,以及通过因果和对抗优化目标忠实地进行推理。实验证明,FRODO 显著优于其他四个基线方法,提高了推理语言模型的鲁棒性和泛化能力,在分布外测试集上表现更好。最后,我们发现 FRODO 的解释对最终答案的预测更加可靠。
Feb, 2024
该研究提出了一种解决在科学领域中使用高级计算机模拟时出现的后验推断问题的新方法,这种方法使用学习的灵活的摊销估计量来近似似然 - 证据比率,并可以嵌入 MCMC 采样器中以从难以处理的后验中获得样本。
Mar, 2019
本文研究如何将逻辑知识从源任务迁移至时间任务中,并通过提出的传递学习方法对两个不同但相似时间任务之间的知识进行传递,取得了在扩展状态下执行强化学习时效率提高两个数量级的显著结果。
Sep, 2019
大型语言模型(LLMs)存在严重的不忠实的思维链 (CoT) 问题。本文首先从 CoT 步骤的粒度研究 CoT 忠实性问题,确定了集中式推理和分布式推理两种推理范式,并发现它们与忠实性的关系。随后,我们对环境、CoT 和答案之间的因果关系进行了联合分析。结果证明,当 LLM 预测答案时,它可以从上下文中回忆起 CoT 中缺失的正确信息,导致不忠实的问题。最后,我们提出了推理桥接方法来缓解这个问题,其中我们使用归因方法来作为 CoT 生成的提示并根据其语义一致性和归因分数过滤噪声 CoTs。大量实验证明我们的方法有效地减轻了不忠实的 CoT 问题。
May, 2024
本文讨论了在 Markov 决策过程中,使用 LTL 的公式作为代理规划的规范,通过形成多目标优化问题,从 MDP 中演示的行为轨迹中推断 LTL 规范,利用遗传编程解决该问题的有效性进行了证明。
Oct, 2017
Reasoning is essential for large language models, and the Alignment Fine-Tuning (AFT) paradigm addresses the Assessment Misalignment problem in fine-tuned models, improving their reasoning abilities by calibrating responses and introducing constraint alignment loss.
Sep, 2023
本文提出了一种基于简化的一阶模型的精确提升推理方法,通过松弛一阶约束,补偿松弛并恢复松弛的约束来逐步完善简化的模型,旨在提高命题求解器和提升置信传播的精确度。
Oct, 2012