大规模 OWL 推理

MMFeb, 2016

Large-Scale Reasoning with OWL

Michael Ruster

TL;DR本文介绍了在 Semantic Web 环境下，如何有效地处理数十亿组三元组数据的一些方法，包括利用 OWL 和其子语言，以及前向和后向链接技术。还详细讨论了 WebPIE reasoner，QueryPIE reasoner，OWLIM 和 TrOWL 等其他推理器。

Abstract

With the growth of the semantic web in size and importance, more and more knowledge is stored in machine-readable formats such as the Web Ontology Language owl. This paper outlines common approaches for efficient

semantic web owl reasoning forward chaining backward chaining

发现论文，激发创造

借助推理能力强化 3D 视觉定位

提出了一种新的任务称为 3D 推理定位，并引入了一个名为 ScanReason 的新基准，该基准提供了来自五种推理类型的超过 10K 个问题 - 答案 - 位置对，需要推理与定位的相互作用，进一步设计了我们的 ReGround3D 方法，由视觉中心推理模块与多模式大型语言模型（MLLM）驱动的 3D 定位模块组成，通过回顾增强几何和细节从 3D 场景中获得准确的对象位置，并提出了一种推理和定位步骤相互交错的推理链机制来进一步提高性能，在所提出的基准上进行了广泛的实验证实了我们提出的方法的有效性。

Jul, 2024

基于步骤误差控制的 DPO：利用逐步误差提升数学推理

提出了一种名为 Step-Controlled DPO (SCDPO) 的方法，在大型语言模型 (LLM) 上应用全自动逐步错误监督，从而改善其在推理和对齐等下游任务上的性能。以此方法应用于数学解决方案，通过在 DPO 训练中采用负样本，SCDPO 能够更好地调整模型以理解推理错误并输出准确的推理步骤。该方法在不同的 SFT 模型上得到了改进，并展示了其在识别数学解决方案错误方面的有效性。最终应用 SCDPO 于一个 InternLM2-20B 模型，取得了 88.5% 的 GSM8K 得分和 58.1% 的 MATH 得分，与所有其他开源 LLM 相媲美，展示了这一方法的巨大潜力。

Jun, 2024

探究大型语言模型如何利用内部知识进行复杂推理

通过将复杂的现实世界问题分解成图形，将每个问题表示为一个节点，并使用具有解决问题所需背景知识的父节点来研究大型语言模型（LLMs）如何利用知识进行推理。使用分层图形，我们量化了 LLMs 在较简单子问题与复杂问题上性能的前向差异和后向差异。此研究拓展了我们对 LLM 推理的理解，并提出了改进它们解决问题能力的方法。

Jun, 2024

AI 原生记忆：从 LLMs 通往 AGI 的路径

通过集成记忆，我们设想了从大型语言模型（LLMs）到人工通用智能（AGI）的一种路径。我们认为 AGI 应该是一个 LLM 作为核心处理器的系统，其中除了原始数据外，该系统的记忆还可以存储推理过程中得出的大量重要结论。相比仅处理原始数据的检索增强生成（RAG）方法，这种方法不仅更紧密地连接语义相关的信息，还可以在查询时简化复杂的推理。最终，每个个体 / 人都应该有自己的大型个人模型，即可以参数化和压缩所有类型记忆的深度神经网络模型（因此是 AI 本地的）。最后，我们讨论了 AI 本地记忆作为（主动的）参与、个性化、分发和社会在 AGI 时代的变革基础设施的巨大潜力，以及相应的隐私和安全挑战与初步解决方案。

Jun, 2024

评估大型语言模型在理解基数方向上的能力

探讨大型语言模型在基于基数方向的推理能力方面的研究，通过创建两个数据集，发现尽管在简单数据集中大型语言模型表现良好，但在更复杂的数据集中，即使温度设置为零，没有任何大型语言模型能够可靠地确定正确的基数方向。

Jun, 2024

CaT-BENCH: 基准测试计划中因果和时间依赖的语言模型理解能力

通过引入 CaT-Bench 基准测试评估 LLMs 对步骤之间的因果依赖关系的理解能力，研究发现 LLMs 在此方面仍有改进空间。

Jun, 2024

体育智能：通过问题回答从文本到视频评估语言模型对体育理解能力

通过对主流大型语言模型在各种体育任务上进行广泛评估，我们揭示了自然语言处理中体育理解的关键挑战，并提出了一个基于现有体育数据集的全面概述的新基准，以帮助确定未来的研究优先事项。

Jun, 2024

Prism: 一个解耦和评估 VLM 能力的框架

Prism 是一个创新的框架，旨在解决视觉问题求解中构成的知觉和推理过程的相互交织难题，通过将感知和推理分离为两个不同的阶段，实现了对专有和开源 Vision Language Models 在感知和推理能力上的系统比较和评估。通过将专注于感知的精简 VLM 与专为推理而设计的强大 LLM 相结合，Prism 在一般的视觉语言任务中取得了卓越的结果，同时大幅减少了训练和操作成本的投入。在严格的多模式基准 MMStar 上，使用 vanilla 2B LLaVA 和免费获取的 GPT-3.5 配置 Prism，在性能上媲美比其大 10 倍的 VLM。

Jun, 2024

神经符号训练用于空间语言推理

通过使用神经符号技术对语言模型进行培训，可以利用推理的逻辑规则作为约束，并为模型提供额外的监督来源，以弥补由于无法达到所需的抽象水平而在未观察到的复杂输入组合中难以提供解决方案的问题。我们聚焦于文本上的空间推理这一具有挑战性的问题，通过在多个语言模型上的多个基准测试中的结果验证了基于神经符号训练的有效领域转移假设。

Jun, 2024

长上下文语言模型是否能包含检索、RAG、SQL 等功能？

基于长上下文语言模型（LCLMs）的 LOFT 基准评估了 LCLMs 在上下文检索和推理方面的性能，发现它们能与最先进的检索系统和 RAG 系统媲美，但在像 SQL 一样需要组合推理的领域仍存在挑战，提示着需要继续研究随着上下文长度增长时的提示策略的影响。LOFT 为 LCLMs 提供了严格的测试平台，展示了随着模型能力的扩展，它们取代现有范式并解决新任务的潜力。

Jun, 2024