- 从人工针到真实大量数据集:通过在合成数据上进行微调来改进 LLMs 的检索能力
利用合成数据集对大型语言模型进行微调,显著提高了其在长上下文环境下的信息检索和推理能力。
- DEXTER:使用 LLMs 进行开放域复杂问题回答的基准测试
通过建立一个包含多样化复杂问答任务的基准以及提供工具包,在开放领域环境中评估先进的预训练密集和稀疏检索模型,本研究旨在解决开放领域复杂问答中证据检索和推理的挑战。我们观察到晚期交互模型和词汇模型(如 BM25)表现较好,此外,我们还评估了 - 揭示致命缺陷:评估 LLM 在数学推理中处理错误的能力
通过引入一个包含正确和错误推理步骤的新数据集 MWP-MISTAKE,本研究重点探讨了大型语言模型在检测和纠正推理错误方面的能力,并通过全面的基准测试揭示了目前最先进模型(如 GPT-4o,GPT-4,GPT-3.5Turbo 等)的优点和 - 推进工具增强型大型语言模型:整合推断树中错误的见解
基于决策树的推理轨迹优化框架提高了工具辅助大型语言模型的推理性能和泛化能力,解决了基于路径的训练方法的局限性,同时透过错误推理路径的洞察力,提高了复杂工具使用推理任务的推理效率。
- 多模态大型语言模型中文本和声音成分的推理研究
使用多模式语言模型(MLLMs)时,音频 MLLM 在生成音频标题时不能完全利用其 LLM 的基于文本的推理能力,可能是因为 MLLM 将听觉和文本信息分别表示,从而切断了 LLM 到音频编码器的推理路径。
- MMCLRS - 文本算法推理语言基准测试
我们提出了 CLRS-Text,它是一个基于文本的类似于算法追踪的数据集生成器,可用于在任意输入分布下生成各种具有挑战性的算法任务,并为理解能力模型为该基准提供了标准流程。
- 如何截断权重提高语言模型中的推理能力
大型语言模型在不同语言中生成流利文本的同时,通过去除预训练模型中的特定组件或 Transformer 块中特定权重部分,研究发现可以提高逻辑推理能力,通过分析训练过程和实验数据,探究了这个现象,并在简单的推理任务上测试了性能。
- 现实中的爱丽丝奇境:显示顶尖大型语言模型完整推理过程的简单任务
大型语言模型在各种任务和条件中以零样本或零曝光的方式表现出色,但我们的研究发现在某些基本推理能力上表现出严重的缺陷,需要迅速重新评估当前一代 LLM 的所声称的能力,并创建新的标准评测以发现这些明显被当前评测方法忽视的基本推理缺陷。
- MindMerger: 非英语语种中高效提升 LLM 推理能力
LLMs 与多语言模型中的外部语言理解能力的融合方法 MindMerger 可提高多语言推理性能。在多个语言推理数据集上的实验证明,MindMerger 相较于其他方法具有更好的性能,尤其对于资源稀缺的语言。在 MGSM 数据集上,不更新 - 走向完全声明性神经符号语言
提出并实现了完全声明性的神经谓词的通用框架,从而扩展到完全声明性的 NeSy 框架。首先证明声明性扩展在保持学习和推理能力的同时,能够在仅通过单个查询类型进行训练的情况下回答任意查询。
- V-FLUTE: 视觉比喻语言理解与文本解释
使用视觉和语言模型进行图像和文字的理解,探索其在理解比喻和幽默等比喻现象方面的能力,并提出了一个新的任务和数据集,Visual Figurative Language Understanding with Textual Explanati - 链式思维引导的通用验证
通过探索不同的思维链和验证推理过程中的各个步骤,我们提出了三个模型应遵循的原则(相关性、数学准确性和逻辑一致性),并将这些原则应用于大型语言模型的推理步骤,以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成 - 评估大型语言模型的一致性和推理能力
大型语言模型在学术、研究、商业和金融等领域被广泛应用于文本生成、摘要和翻译等任务,然而,这些模型往往会产生不正确和误导性的信息,主要原因是一致性和推理能力的不足,因此本研究旨在评估和比较公开和专有的大型语言模型的一致性和推理能力,并发现专有 - 信息重组改善大型语言模型推理能力
提出了一种信息重新组织(InfoRE)方法,通过在推理之前对上下文内容进行重新组织处理,从而增强了大型语言模型(LLMs)的推理能力。在各种上下文感知的多跳推理任务中,通过零射击设置,我们实验评估了该方法在 Llama2-70B、GPT-3 - 自主探索避免陷阱:以细粒度奖励提升语言模型的推理能力
通过自主探索(Self-Explore)的方法,研究自动增强规划模型(LLMs)的推理能力,并与监督式微调相比,在 GSM8K 和 MATH 测试集上分别平均取得 11.57%和 2.89%的改进。
- ACL当回顾不再是 20/20:大型语言模型反思思维的测试限制
最近的研究表明,自我反思的提示可以显著提高大型语言模型(LLMs)的推理能力。然而,使用外部反馈作为停止标准对 LLMs 模拟人类自我反思的真正能力提出了疑问。本文旨在在一种更严格的评估环境中澄清这些能力,在该环境中禁止任何形式的外部反馈。 - 教育的基础模型:承诺与前景
领域模型在教育中的应用以及个性化学习、教育不平等、推理能力和适应性学习环境等方面的优势,结合面向教育的代理体系结构的发展,旨在创造动态、包容和适应性强的教育生态系统。同时强调了过度依赖人工智能和创意风险与机会,并展望了一个将人工智能与人类能 - Ferret-UI: 基于多模态 LLMS 的移动 UI 理解
Ferret-UI 是一种专门用于增强对移动用户界面(UI)屏幕理解的多模态大型语言模型(MLLM),它具备指代、基础和推理能力,并在学习样本、编码和任务执行方面表现出色。
- 超越准确性:评估大型语言模型的推理行为 -- 调查研究
大型语言模型在推理任务中表现出色,但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究,深入探讨模型的推理过程,并调查评估语言模型推理行为的方法,发现其依赖于训练数据的表面模式和相关性,而非真正的推理能力。同时,我们指出需要进一 - LLMs 能否从以往错误中学习?调查 LLMs 的错误以提升推理能力
这项研究从提示和模型调整的角度探究 LLMs 是否能够从错误中学习和受益,特别是在推理方面,通过引入 CoTErrorSet 基准测试,设计了自我反思提示和错误调整两种方法,证明 LLMs 能够从错误中受益,进而增强其推理能力,并对 LLM