通过大型知识库中的概念学习能力构建记忆
Fine-Grained Self-Consistency (FSC) improves the performance of LLMs in open-ended and reasoning tasks by extracting and integrating segment-level commonalities from candidate samples, demonstrating significant improvements over baseline methods.
Jul, 2024
经验分析表明,大型语言模型可以理解 DL-Lite 本体论,但在处理具有大型 ABox 的本体论以及理解 TBox NI 传递性方面存在困难。
Jun, 2024
本文研究大型语言模型在复杂推理任务中的局限性,提出了 Logic-LM++ 作为对 Logic-LM 和基于 LLMs 的技术的改进,通过利用 LLMs 进行成对比较,可以评估 LLM 建议的改进。研究结果表明,在自然语言推理任务中,Logic-LM++ 在两个数据集 FOLIO 和 AR-LSAT 上的性能优于 Logic-LM 和基于 LLMs 的技术,标准提示的平均改进率为 13.5%,思维链提示的改进率为 11%,而 Logic-LM 的改进率为 5%。
Jun, 2024
介绍了一种自动跨语言对齐规划(AutoCAP)方法,旨在解决当前跨语言推理方法中的两个主要挑战:手动语言规定和静态权重分配,AutoCAP 包括自动语言选择提示和自动权重分配提示两个核心组件,通过广泛实验验证了其在多个基准测试中取得了领先的性能,超过了之前需要人工操作的方法。
Jun, 2024
我们研究了如何减少示范数量,同时保持竞争性能。我们提出了 SeCoKD,一种自我知识蒸馏训练框架,通过将学生模型与大量提示变体对齐,从而提高单个示范的利用率。结果表明我们的方法在零示范和一示范设置中分别比基准模型和监督微调 (SFT) 的性能高出 30%和 10%。此外,SeCoKD 在新任务评估时几乎没有负面作用,比监督微调更稳健。
Jun, 2024
最近的大型语言模型(LLMs)在需要人类智能的任务上展示了令人瞩目的能力,是走向人类智能的重要一步。然而,LLMs 在推理任务上的表现相对较差,其推理能力成为一个重大争议。我们引入了一种称为组合推理(CR)的全自动提示方法的框架,其中理由是从 LLM 管道中采样并映射到一个二次无约束二进制优化(QUBO)问题中。该框架探索了 QUBO 解决方案是否可以有利地用于选择一个有用的理由子集来构建一种 “思维链” 的提示。我们研究了使用专门求解器加速 CR 的方法。我们还调查了简单的零样本策略,如线性多数规则或随机选择的理由。我们的初步研究表明,将组合求解器与生成型人工智能管道相结合是人工智能推理的有趣途径,并阐明了未来 CR 方法的设计原则。
Jun, 2024
通过提供综合评估多模态大型模型在视频理解和推理中的性能的全方位评估基准 VideoVista,本文揭示了视频 LMM 面临的困难、推理能力的不足以及开源视频 LMM 的性能低于 GPT-4o 和 Gemini-1.5 的问题,强调了 VideoVista 在推进精确理解视频和执行精准推理的 LMM 中的关键作用。
Jun, 2024
通过能量扩散推理(IRED)框架,我们引入了迭代推理,该框架通过基于能量的最优化来推理和决策问题,学习能量函数以表示输入条件和期望输出之间的约束。我们的实验证明,在连续空间推理、离散空间推理和规划任务中,IRED 在更具挑战性的场景中优于现有方法。
Jun, 2024
通过对大型语言模型(LLMs)进行系统的鲁棒性评估,本研究提供了关于 LLMs 对多样化和噪声输入的处理能力方面的进一步改进的见解。
Jun, 2024
本研究综述了 150 + 篇论文,对概念化的定义、执行、应用以及相关的资源方法和下游应用进行了综合分类,特别关注实体和事件层面,在此基础上,我们揭示了该领域的未来发展方向,并希望得到社区更多的关注。
Jun, 2024