ECHo:基于人类中心推理的事件因果推断
构建能推理物理事件及其因果关系的机器对于与物质世界进行灵活交互至关重要。为了解决现有物理和因果推理基准的缺点,我们提出了一种视频推理数据集,以人类标签为基础,用于对物理事件的因果判断。
Oct, 2023
利用逻辑链思维 (LogiCoT) 的神经符号框架,大规模语言模型提供了更强的零编码链式思维推理能力。实验证明了逻辑增强的推理范式在算术、常识、符号、因果推断和社会问题等多个领域的语言任务中的有效性。
Sep, 2023
该论文介绍了一个包含多种类型的文本解释的数据集 CICEROv2,提出了一系列的预训练目标来帮助下游任务。结果表明,该论文中的预训练目标对于预训练模型来说是有效的。
Oct, 2022
通过 LLM-Human-in-the-Loop 流程和 CURE 基准,我们评估了现有的 VLMs,并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性,表明需要大量努力使 VLMs 能够像人类一样系统而一致地进行视觉推理。作为初步步骤,我们提出了一个两阶段训练框架,旨在提高 VLMs 的推理性能和一致性。第一阶段涉及使用由 LLMs 自动生成的逐步推理样本对 VLMs 进行监督微调。在第二阶段,我们进一步通过结合 LLMs 提供的反馈来增强训练过程,以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。
Sep, 2023
通过细致而统一的因果关系定义以及涉及人类与 / 或物体之间相互作用的显式因果图,本论文构建了一个名为 CELLO 的新数据集,并表明当前的大规模视觉语言模型在因果推理任务上依然面临困难,但可以从提出的因果启发式思维提示策略 CELLO-CoT 中获得显著的收益。
Jun, 2024
介绍了一种新的挑战,即隐式事件的研究,已有的方法侧重于显式事件;提出了一种基于神经符号学的时态推理模型 SYMTIME,并使用大规模文本的远程监督信号和时态规则结合开始时间和持续时间来推断结束时间,此方法在 TRACIE 的表现优于强基线系统 5%,在零先验知识的训练中性能提高 11%;同时,也能够广泛应用于其他时态推理任务,并且在显式事件基准测试 MATRES 上提高了 1%-9%。
Oct, 2020
该论文提出了 Visual CoT,一种利用多模态大型语言模型(MLLMs)的推理能力的新型流程,通过结合可解释性认知链条(CoT)推理来处理复杂的视觉输入,并提供可解释的思路。我们收集并引入了 Visual CoT 数据集,该数据集包含 373k 个问题 - 答案对,通过中间边界框突出显示回答问题所必要的关键区域,能够评估在需要特定局部区域识别的场景中的 MLLMs 的性能。大量实验证明了我们的框架的有效性,并为更好的推理策略提供了启示。Visual CoT 数据集、基准和预训练模型可用于促进相关方向的进一步研究。
Mar, 2024
提出了一种知识蒸馏框架,利用大型语言模型作为不可靠的教师,并通过对齐过滤器选择性地提炼一致和有帮助的合理性,以实现对话语境中的多跳推理。进一步提出了 DOCTOR,一种可靠的 DialOgue Chain-of-ThOught Reasoner,为响应生成提供可靠的逻辑基础,通过广泛的实验表明,使用 DOCTOR 提供的高质量合理性显著提高了对话代理的响应质量。
Oct, 2023
本研究引入了三种不同类型的解释数据集,发现基于 BERT 分类器的方法能够显著提高解释质量,同时通过使用广义推理链,使得对某些扰动更具鲁棒性。
Oct, 2020
本文介绍了解决上下文中常识性推理对话推理问题的方法,并介绍了通过 CICERO 数据集解决相关机器学习生成和判别任务的结果,提出 CICERO 对话性常识知识数据集的价值,并为基于常识的对话推理开辟新的研究方向。
Mar, 2022