- ACLBi-Chainer:自动化大型语言模型双向链式推理
提出了一种双向链式方法 Bi-Chainer,通过动态切换至深度优先推理来解决单向链式方法在复杂逻辑问题中的低预测准确性和效率问题,并展示了在四个具有挑战性的逻辑推理数据集上,Bi-Chainer 相较于单向链式框架实现了可观的准确度提升。 - TACT: 提高复杂聚合推理的信息提取工具
使用 TACT 数据集评估了大型语言模型(LLMs)的推理和计算能力,发现现有模型在整合分散信息和执行复杂集成任务方面表现不佳。提出了一个名为 IE 作为工具的新建模型框架,通过为每个步骤添加工具并采用 few-shot prompting - IJCAI分析训练样本对解释的影响
通过解释 AI 系统的决策,例如提供达到子程序目标的反事实解释,来分析 AI 系统的推理是一种流行的可解释 AI(XAI)方法。本文提出了一个新问题,即识别对给定解释(或相关量)有很高影响力的训练数据样本,并研究了受保护群体之间子程序成本差 - EffiQA: 在知识图谱上进行策略性多模型协作的高效问答
我们提出了 EffiQA,一种在性能和效率之间取得平衡的协作框架,通过全球计划、高效知识图谱探索和自我反思三个阶段,改进了大型语言模型在多步骤推理任务中的表现,为知识密集查询提供了新的集成模式。
- 用 LLMs 推理概念:充斥着不一致
知识的总结和组织对于学习和推理至关重要。我们展示了大型语言模型在知识方面存在显著的不一致性。通过使用简单的知识图谱,我们能够揭示语言模型中的概念上的不一致性,并提出了改进语言模型的策略。
- Conv-CoA: 通过 交互式 行动链 提高大型语言模型中的 开放域 问答
我们提出了一个面向开放域会话问答 (OCQA) 的会话动作链 (Conv-CoA) 框架,用于解决现有文献中的三个主要挑战:与实时或领域事实不一致的虚假幻觉、会话场景中弱推理能力以及在会话信息检索方面表现不理想。我们的关键贡献是一种动态推理 - FiDeLiS:语言模型在知识图谱问答中的忠实推理
本文提出了一种检索 - 探索互动方法 FiDelis,用于处理以知识图谱为基础的推理的中间步骤。通过结合 LLMs 的逻辑和常识推理以及 KG 的拓扑连接性,我们提出了 Path-RAG 模块,用于从 KG 中检索有用的中间知识用于 LLM - 论证性因果探索
使用符号表示对假设引导论证(ABA)进行推理可以支持因果关系的发现,此方法在使用答案集编程(ASP)实现后在因果发现的标准基准测试中表现良好。
- AMCEN: 一个基于注意力屏蔽的对比事件网络用于两阶段时间知识图推理
提出了基于注意力掩蔽的对比事件网络(AMCEN),通过局部 - 全局时间模式对未来事件进行两步预测,以更准确地推理时态知识图谱中的事件,从而解决数据集中新事件和重复事件之间不平衡影响推理准确性的问题。在 AMCEN 网络中,设计了历史和非历 - 幽默机制:运用多步推理推动幽默生成
通过多步推理,我们探讨了一句笑话的生成。通过重构创造幽默的过程并开发工作原型来生成幽默。我们进行了涉及人类参与者的全面实验,将其与人类创造的笑话、零样本 GPT-4 生成的幽默和其他基准进行比较。评估侧重于所生成幽默的质量,以人工标注作为基 - 概率和因果可满足性:边缘化的影响
研究了 Pearl 的因果层次结构 (PCH) 框架中的推理和计算复杂性,重点关注概率和因果语言中表达的满足性问题,特别是与边缘化相关的方程,证明了不同层次和操作符的确切计算复杂性结果,以及对受限模型进行了考虑。
- WorldQA:通过长链推理在视频中实现多模态世界知识
多模态信息和知识对我们理解复杂动态的世界至关重要。本文介绍了一个名为 WorldQA 的视频理解数据集,旨在推动多模态世界模型的发展,并通过引入多种观点挑战模型的能力。通过 WorldRetriever,介绍了一种将专家知识综合整理为连贯推 - 关于以求和运算符进行概率和因果推理
引入求和运算符来捕捉应用程序中常见的设备,如 Pearl(2009)的因果推断中的 $do$-calculus,其中大量使用边际化。我们对使用边际化的概率和因果推理的复杂性进行了完全的特征化,证明了它们仍然等同困难。
- SIGIR基于 Transformer 的学习时间知识图的演化事件链推理
通过使用一种基于 Transformer 的推理模型 (ECEformer) 来学习事件的演化链,以及通过额外的时间预测任务来提高事件的及时性,本研究在六个基准数据集上验证了方法的先进性和有效性。
- 大型语言模型能否将 2 和 2 相加?探测蕴含的数学关系
大型语言模型在知识获取和统计推理方面取得了稳定进展,但在常识推理任务中仍存在局限性,纯统计学习难以应对其中的组合爆炸问题,更大并不总是更好,而且单纯追求统计改进只会加重正确答案与真正推理能力之间的危险混淆。
- PLAYER*: 提高基于 LLM 的多智能体通讯与互动在谋杀推理游戏中的效果
基于大型语言模型(LLM)的代理通信和社交互动的最新进展,尽管这些进展,但在涉及竞争和协作的动态环境中构建面向推理的 LLM 代理仍然具有挑战性,由于受到知情图搜索方法的局限性。我们提出了 PLAYER*,这是一种基于任意采样的规划器的新型 - NExT:教授大型语言模型推理代码执行
通过 NExT 方法,我们可以教会大型语言模型检查程序的执行痕迹并通过推理理解其运行行为,从而显着提升程序修复能力。
- 语言模型对于时间序列零样本推理仍然存在困难
时间序列推理是语言模型研究中一个有影响力但尚未充分发展的方向,本研究提出了一个新颖的时间序列推理评估框架,研究了三种推理形式的表现,并发现语言模型在时间序列推理方面仍存在局限性。
- 推理、规划和工具调用的新兴 AI 代理架构概览
这篇综述性论文研究了 AI 代理实现的最新进展,重点关注它们在实现需要增强推理、规划和工具执行能力的复杂目标方面的能力。该研究的主要目标是:a) 传达现有 AI 代理实现的当前能力和局限性,b) 分享我们在实际运行这些系统中获得的见解,c) - 大型语言模型中的不完全循环:演绎、归纳和演绎学习
通过研究不同类型的推理方式,以及对语言模型进行的指令跟随、少样本提示和指令推断实验,我们发现即使在一些最大的语言模型中,推理的方式仍然是非系统性的,不同的学习机制可能被看似相似的提示程序调用。