通过大型知识库中的概念学习能力构建记忆

NIPSDec, 2015

通过大型知识库中的概念学习能力构建记忆

Building Memory with Concept Learning Capabilities from Large-scale Knowledge Base

Jiaxin Shi, Jun Zhu

TL;DR该论文提出了一种新的神经知识库嵌入的视角，并构建了一个框架，可以在 KB 中建模符号知识及其学习过程。该框架不仅可以良好地规范以前的神经 KB 嵌入模型以获得卓越的推理性能，而且具有处理未见实体的能力，即从自然语言描述中学习它们的嵌入，这与人类学习语义概念的行为非常相似。

Abstract

We present a new perspective on neural knowledge base (KB) embeddings, from which we build a framework that can model symbolic knowledge in the KB together with its →

neural knowledge base kb embeddings symbolic knowledge learning process reasoning tasks

发现论文，激发创造

融合精华，消除杂质：细粒度自洽性用于自由形式语言生成

Fine-Grained Self-Consistency (FSC) improves the performance of LLMs in open-ended and reasoning tasks by extracting and integrating segment-level commonalities from candidate samples, demonstrating significant improvements over baseline methods.

Jul, 2024

大型语言模型是否能理解 DL-Lite 本体？一项实证研究

经验分析表明，大型语言模型可以理解 DL-Lite 本体论，但在处理具有大型 ABox 的本体论以及理解 TBox NI 传递性方面存在困难。

Jun, 2024

LOGIC-LM++：符号化表达的多步精化

本文研究大型语言模型在复杂推理任务中的局限性，提出了 Logic-LM++ 作为对 Logic-LM 和基于 LLMs 的技术的改进，通过利用 LLMs 进行成对比较，可以评估 LLM 建议的改进。研究结果表明，在自然语言推理任务中，Logic-LM++ 在两个数据集 FOLIO 和 AR-LSAT 上的性能优于 Logic-LM 和基于 LLMs 的技术，标准提示的平均改进率为 13.5%，思维链提示的改进率为 11%，而 Logic-LM 的改进率为 5%。

Jun, 2024

AutoCAP：面向零 - shot 思维链的自动跨语言对齐规划

介绍了一种自动跨语言对齐规划（AutoCAP）方法，旨在解决当前跨语言推理方法中的两个主要挑战：手动语言规定和静态权重分配，AutoCAP 包括自动语言选择提示和自动权重分配提示两个核心组件，通过广泛实验验证了其在多个基准测试中取得了领先的性能，超过了之前需要人工操作的方法。

Jun, 2024

SeCoKD: 对大型语言模型进行上下文学习的对齐方法，更少的示例

我们研究了如何减少示范数量，同时保持竞争性能。我们提出了 SeCoKD，一种自我知识蒸馏训练框架，通过将学生模型与大量提示变体对齐，从而提高单个示范的利用率。结果表明我们的方法在零示范和一示范设置中分别比基准模型和监督微调 (SFT) 的性能高出 30％和 10％。此外，SeCoKD 在新任务评估时几乎没有负面作用，比监督微调更稳健。

Jun, 2024

组合推理：通过组合优化在生成型人工智能流程中选择原因

最近的大型语言模型（LLMs）在需要人类智能的任务上展示了令人瞩目的能力，是走向人类智能的重要一步。然而，LLMs 在推理任务上的表现相对较差，其推理能力成为一个重大争议。我们引入了一种称为组合推理（CR）的全自动提示方法的框架，其中理由是从 LLM 管道中采样并映射到一个二次无约束二进制优化（QUBO）问题中。该框架探索了 QUBO 解决方案是否可以有利地用于选择一个有用的理由子集来构建一种 “思维链” 的提示。我们研究了使用专门求解器加速 CR 的方法。我们还调查了简单的零样本策略，如线性多数规则或随机选择的理由。我们的初步研究表明，将组合求解器与生成型人工智能管道相结合是人工智能推理的有趣途径，并阐明了未来 CR 方法的设计原则。

Jun, 2024

VideoVista: 视频理解和推理的通用基准测试

通过提供综合评估多模态大型模型在视频理解和推理中的性能的全方位评估基准 VideoVista，本文揭示了视频 LMM 面临的困难、推理能力的不足以及开源视频 LMM 的性能低于 GPT-4o 和 Gemini-1.5 的问题，强调了 VideoVista 在推进精确理解视频和执行精准推理的 LMM 中的关键作用。

Jun, 2024

学习通过能量扩散的迭代推理

通过能量扩散推理（IRED）框架，我们引入了迭代推理，该框架通过基于能量的最优化来推理和决策问题，学习能量函数以表示输入条件和期望输出之间的约束。我们的实验证明，在连续空间推理、离散空间推理和规划任务中，IRED 在更具挑战性的场景中优于现有方法。

Jun, 2024

RUPBench：基于干扰的推理鲁棒性评估大型语言模型的基准测试

通过对大型语言模型（LLMs）进行系统的鲁棒性评估，本研究提供了关于 LLMs 对多样化和噪声输入的处理能力方面的进一步改进的见解。

Jun, 2024

实体和事件级概念化在可推广推理中的作用：任务、方法、应用及未来方向综述

本研究综述了 150 + 篇论文，对概念化的定义、执行、应用以及相关的资源方法和下游应用进行了综合分类，特别关注实体和事件层面，在此基础上，我们揭示了该领域的未来发展方向，并希望得到社区更多的关注。

Jun, 2024