- AURA: 有理据中的自然语言推理与偶然性不确定性
处理引起不确定性的不完美理由,根据理由的歧义性,我们指导模型选择两种不同的推理模型,从而提供稳健的性能优势。
- 提示求解之前的线索引导:指导 LLMs 有效利用编码知识
通过引入 Hint-before-Solving Prompting (HSP) 方法,将高质量提示应用于大型语言模型的解题过程,有效地提高了推理任务的准确性,并建立了 HSPMATH 数据集,提高了解题准确性。
- 简单有效的神经符号融合的转移学习
深度学习与神经符号整合是解决深度学习普适性和推理任务的挑战,通过预训练神经模型并通过迁移学习注入感知部分的权重,可以改善当前神经符号方法中的收敛速度、复杂感知任务的学习难度和局部最小值问题。
- 利用大语言模型的推理解谜:一项调查研究
对大型语言模型(LLMs)在解谜方面的能力进行探索,揭示了它们在人工智能中的潜力和挑战,这是对其在复杂推理任务中适用性的重要一步。通过将谜题分为基于规则和非规则两类的独特分类法,该调查通过各种方法论(包括提示技术、神经符号方法和微调)对 L - 大型语言模型推理中前提顺序重要性
大语言模型在各个领域中取得了非凡的推理性能。然而,在推理任务领域中,我们发现一个脆弱之处:尽管这种排序不会改变基本任务,但大语言模型对前提的排序非常脆弱。
- 通过逆序课程强化学习训练大规模语言模型
本研究提出了一种名为 R^3 的学习推理的逆向课程强化学习方法,该方法仅借助结果监督实现大型语言模型的过程监督的益处。该方法通过学习正确演示,使用逐步课程逐渐滑动推理起始状态,以便在所有阶段更容易地进行模型探索,从而允许结果监督提供逐步信号 - 大型语言模型中演化算法引导的零射链条思维推理
大语言模型通过应用无需预先训练的思维链式促进方法展示了卓越的表现,并展示了出色的推理能力。本文介绍了一种新的零样本促进方法,利用进化算法为大语言模型动态生成多样的促进方式,通过选择适合的促进方式提高模型的理解能力。详细实验结果表明,相较于当 - PuzzleBench: LLM 能解决挑战性的一阶组合推理问题吗?
我们工作的目标是探索语言模型是否可以解决复杂的一阶组合推理问题,例如数独,尽管现有的 LLMs 在这些问题上表现较差。因此,我们提出了一种新的方法,Puzzle-LM,将 LLMs 与符号求解器和程序解释器相结合,以改善解决这些问题的能力。 - 思维链的强弱取决于最薄弱一环:推理链验证器的基准评估
我们引入了 Reveal:推理验证评估,这是一个新的数据集,用于在开放域问题回答设置中评估复杂的链式推理的自动验证器,包括语言模型的答案中每个推理步骤的相关性、证据归因和逻辑正确性的全面标签。
- TPD: 通过原则发现和指导增强学生语言模型推理能力
通过基于原则发现的教师 - 学生框架,我们在大型语言模型中有效传递推理能力,并通过对八项推理任务的广泛实验证明,相比于标准的推理提示,TPD 显著提高了学生模型的性能,平均提升了 6.2%。
- 自我想象:使用多模态模型进行高效单模态推理
使用 Vision-Language Models 和 HTML 生成结构化问题的图像化表示,并使用相同的 Vision-Language Model 回答问题。该方法在数学任务和推理任务中提高了性能。
- 一瞥与聚焦:多事件视频问答的记忆提示
视频问答是评估智能体理解人类日常行为能力的重要工具,我们提出的 Glance-Focus 模型在复杂情境中基于事件记忆快速定位与问题相关的关键时刻进行推理,以在多种挑战性的推理任务中取得最先进的结果。
- 基模型推理综述
发展基础模型的探索性研究目前取得了最新的进展,其涉及推理任务、多模态学习和自主智能代理等未来研究方向,为人工智能的发展做出了贡献。
- 关于环境学习校准的研究
现代自回归语言模型研究了在上下文学习中,如何在广泛数据上通过预测下一个令牌以最小化对数损失,以获得校准答案。通过大量实验,发现当增加模型大小、增加上下文学习示例以及使用指导、对话或强化学习等方法在精心策划的数据集上对模型进行微调时,性能和校 - CORE-MM: 多模态大型语言模型的复杂开放式推理评估
我们手动策划了一个专为多模态大型语言模型(MLLMs)设计的基准数据集,重点关注复杂推理任务,通过评估中间推理步骤来准确测量其推理能力。
- 第一步优势:多步推理中开始正确的重要性
大型语言模型可以通过为其预测生成理由来解决复杂的推理任务。通过将这些功能融入到较小、紧凑的模型中,可以促进为特定任务量身定制的专门、经济高效的模型的创建。然而,较小的模型在复杂的推理任务中常常面临挑战,并且通常会偏离正确的推理路径。我们发现 - 通过多智能体同行评审协作实现大型语言模型的推理
通过多模型协同合作策略,模拟学术同行评审过程的多个代理人独立构建解决方案,相互审查并分配评审置信度,最终通过反复修订得到优于现有方法的结果,在多个推理任务中展示出卓越的准确性,并在数学推理中体现了对评审置信度整合的有效性,为模仿人类的多代理 - 偏见根深蒂固:个性化指定的 LLMs 中的隐性推理偏见
大规模语言模型(LLMs)个性化与基本推理任务间的影响及深层偏见的研究。
- R$^3$ 提示:在嘈杂的语境下为大型语言模型的思路链进行检查、改述和解决
通过使用 R3 提示方法来处理嘈杂语境下的 CoT 推理,能够提高 LLM 在推理任务中的准确性。与现有的 CoT 提示方法相比,R3 提示方法在噪声环境下显著优越,通过与 GPT-3.5-turbo 的实验观察,平均推理准确性提高了 3. - 什么是一个好问题?面向任务的问答与事实级屏蔽
大语言模型在解决任务时常常缺乏与用户或第三方进行追问的能力,导致其难以生成能够促进任务成功的问题。通过定义及框架,本研究提出了自然语言任务导向的追问方法,并通过自监督学习生成了追问数据集,实验证明当前的零样本模型在提问中相较于人工标注者存在