ECHo：基于人类中心推理的事件因果推断

May, 2023

ECHo：基于人类中心推理的事件因果推断

ECHo: Event Causality Inference via Human-centric Reasoning

Yuxi Xie, Guanzhen Li, Min-Yen Kan

TL;DR该论文介绍了一种基于真实世界人类推断信息的诊断数据集 ECHo，旨在通过理论设计闭环链来评估当前人工智能系统的信息推理能力。该系统在零 - shot 视觉和语言理解中融合了各类大型基础模型，并进一步通过三个不同的任务来证明 ECHo 作为一个挑战性的数据集，可以揭示信息推理中的缺陷和不一致性。

Abstract

We introduce ECHo, a diagnostic dataset of event causality inference grounded in visual-and-linguistic social scenarios. ECHo employs real-world human-centric deductive information collected from crime drama, bridging the gap in →

event causality inference multimodal reasoning theory-of-mind chain-of-thought ai systems

发现论文，激发创造

CLEVRER-Humans: 以人的方式描述物理和因果事件

构建能推理物理事件及其因果关系的机器对于与物质世界进行灵活交互至关重要。为了解决现有物理和因果推理基准的缺点，我们提出了一种视频推理数据集，以人类标签为基础，用于对物理事件的因果判断。

Oct, 2023

通过逻辑增强大型语言模型中的零射连续推理

利用逻辑链思维 (LogiCoT) 的神经符号框架，大规模语言模型提供了更强的零编码链式思维推理能力。实验证明了逻辑增强的推理范式在算术、常识、符号、因果推断和社会问题等多个领域的语言任务中的有效性。

Sep, 2023

多视角的语境常识推理：一个新的数据集和任务

该论文介绍了一个包含多种类型的文本解释的数据集 CICEROv2，提出了一系列的预训练目标来帮助下游任务。结果表明，该论文中的预训练目标对于预训练模型来说是有效的。

Oct, 2022

测量和改进视觉 - 语言模型的思维链推理

通过 LLM-Human-in-the-Loop 流程和 CURE 基准，我们评估了现有的 VLMs，并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性，表明需要大量努力使 VLMs 能够像人类一样系统而一致地进行视觉推理。作为初步步骤，我们提出了一个两阶段训练框架，旨在提高 VLMs 的推理性能和一致性。第一阶段涉及使用由 LLMs 自动生成的逐步推理样本对 VLMs 进行监督微调。在第二阶段，我们进一步通过结合 LLMs 提供的反馈来增强训练过程，以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。

Sep, 2023

CELLO: 大型视觉 - 语言模型的因果评估

通过细致而统一的因果关系定义以及涉及人类与 / 或物体之间相互作用的显式因果图，本论文构建了一个名为 CELLO 的新数据集，并表明当前的大规模视觉语言模型在因果推理任务上依然面临困难，但可以从提出的因果启发式思维提示策略 CELLO-CoT 中获得显著的收益。

Jun, 2024

利用远程监督进行隐式事件的时间推理

介绍了一种新的挑战，即隐式事件的研究，已有的方法侧重于显式事件；提出了一种基于神经符号学的时态推理模型 SYMTIME，并使用大规模文本的远程监督信号和时态规则结合开始时间和持续时间来推断结束时间，此方法在 TRACIE 的表现优于强基线系统 5％，在零先验知识的训练中性能提高 11％；同时，也能够广泛应用于其他时态推理任务，并且在显式事件基准测试 MATRES 上提高了 1％-9％。

Oct, 2020

视觉 CoT：在多模态语言模型中释放连续思维推理

该论文提出了 Visual CoT，一种利用多模态大型语言模型（MLLMs）的推理能力的新型流程，通过结合可解释性认知链条（CoT）推理来处理复杂的视觉输入，并提供可解释的思路。我们收集并引入了 Visual CoT 数据集，该数据集包含 373k 个问题 - 答案对，通过中间边界框突出显示回答问题所必要的关键区域，能够评估在需要特定局部区域识别的场景中的 MLLMs 的性能。大量实验证明了我们的框架的有效性，并为更好的推理策略提供了启示。Visual CoT 数据集、基准和预训练模型可用于促进相关方向的进一步研究。

Mar, 2024

对话链条思路精炼：注重常识的对话代理

提出了一种知识蒸馏框架，利用大型语言模型作为不可靠的教师，并通过对齐过滤器选择性地提炼一致和有帮助的合理性，以实现对话语境中的多跳推理。进一步提出了 DOCTOR，一种可靠的 DialOgue Chain-of-ThOught Reasoner，为响应生成提供可靠的逻辑基础，通过广泛的实验表明，使用 DOCTOR 提供的高质量合理性显著提高了对话代理的响应质量。

Oct, 2023

学习解释：多跳问答中识别有效推理链的数据集和模型

本研究引入了三种不同类型的解释数据集，发现基于 BERT 分类器的方法能够显著提高解释质量，同时通过使用广义推理链，使得对某些扰动更具鲁棒性。

Oct, 2020

CICERO：对话中语境化常识推理的数据集

本文介绍了解决上下文中常识性推理对话推理问题的方法，并介绍了通过 CICERO 数据集解决相关机器学习生成和判别任务的结果，提出 CICERO 对话性常识知识数据集的价值，并为基于常识的对话推理开辟新的研究方向。

Mar, 2022