- 从最少到最多:通过数据合成构建即插即用的视觉推理器
我们探索了视觉 - 语言模型中的多步推理问题,并提出了一种新的数据合成方法,通过使用先生成较简单的子任务,并依赖开源模型来完成这些子任务,从而构建了 50000 个视觉推理示例,并通过监督微调开发了一种视觉推理器,可以显著改善四个视觉问答基 - 从启发法到理性:语言模型推理的动态启发法使用
语言模型在多步推理中在早期阶段更依赖于启发式方法,包括词汇重叠,但随着接近最终答案,启发式方法的依赖程度减少,语言模型动态结合启发式和逻辑策略进行多步推理任务。
- ACL使用合成数据探索大型语言模型的数学外推
通过对高质量合成数据的微调,本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现,并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明,这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1,而且还 - 思路规划:以启发式引导的大型语言模型问题解决方案
在本研究中,我们使用基于规划的方法结合部分可观察马尔可夫决策过程(POMDPs)来解决多步骤的问题,并通过 POMCP 在线求解器在 24 点游戏任务上展现出了 89.4% 的优越成功率,同时也提供了比之前使用的固定树搜索更好的任意时间性能 - COLINGBP4ER:医学对话生成中的引导推理引导
通过引入 BP4ER 方法,我们成功地将医学对话生成过程中的推理链路显式生成,不仅提高了透明度,还在客观和主观评估指标方面优于现有方法。
- ERA-CoT: 通过实体关系分析改进思维链
我们提出了一种新的方法 ERA-CoT,通过捕捉实体之间的关系并通过思维链条(CoT)支持多样化任务的推理,从而帮助大型语言模型(LLMs)理解上下文,实现了在 GPT3.5 上相较于现有的 CoT 提示方法,平均提升了 5.1%的显著改进 - 利用大型语言模型实现实体对齐的能力解锁
ChatEA 是一个创新的框架,将大型语言模型(LLMs)结合到实体对齐(EA)中,通过 KG-code 翻译模块和对话式的多步推理策略提高准确性和效率。实验证实了 ChatEA 在 EA 任务中的卓越性能,突出了 LLMs 在促进 EA - 结构引导提示:通过探索文本的图结构,在多步推理中指导大型语言模型
我们的论文引入了结构引导提示,这是一个创新的三阶段任务无关提示框架,旨在提高大型语言模型在零样本环境下的多步推理能力。通过将非结构化文本转换为图形,指导模型在图形中导航,并使用任务特定的策略来制定响应,我们的实验表明这一框架显著增强了大型语 - SymBa:用于多步自然语言推理的符号式向后推理
通过引入符号性的自上而下求解器,与大型语言模型的集成,SymBa 在多步推理基准测试中(ProofWriter,Birds-Electricity,GSM8k,CLUTRR-TF,ECtHR Article 6)相对于基线算法实现了性能、证 - 利用链式抽象推理进行高效工具使用
大型语言模型需要通过链接现实世界的知识来实现与人类期望一致的准确推理。我们提出了一种新的方法,使用抽象链条进行计划,从而使语言模型能够更好地利用工具进行多步推理,并取得更高效的工具使用和更快的推理速度。
- SuperCLUE-Math6: 适用于中文语言模型的分级多步数学推理基准测试
我们引入了 SuperCLUE-Math6(SC-Math6),这是一个新的基准数据集,用于评估中文语言模型的数学推理能力。SC-Math6 是 GSM8K 数据集的升级版,具有增强的难度、多样性和应用范围。它包含了 2000 多个需要多步 - ReST meets ReAct:自我改进的多步推理 LLM Agent
通过 ReAct-style LLM 代理,我们可以迭代训练一个经过改进的小模型,用于具有挑战性的组合式问答基准测试,参数数量减少了两个数量级。
- EMNLP自我监督行为复制的变压器是文本游戏的路径爬虫
我们介绍了一种自监督行为克隆变压器,用于文本游戏,这是虚拟环境中的多步推理的具有挑战性的基准。通过自动生成训练数据的方式,我们的方法能够在三个基准文本游戏中实现约 90%的监督系统性能。
- 大型语言模型中多跳问答的图引导推理
通过引入图引导的 CoT 提示方法,以问题 / 理由图为基础的图引导推理方法在多步骤推理中表现出优越性能。
- 迈向多步推理答案校准的统一视角
利用链式思考提问的大型语言模型(LLMs)扩大了改进多步推理能力的范围。本文研究了最近的答案校准策略的设计,并从统一的视角对其进行了全面评估,系统地审查了多个路径上的分步和路径级答案校准。我们的研究有潜力揭示优化多步推理的关键见解。
- 通过思维树增强跨语言多步推理
本研究通过一种自洽的跨语言提示机制,提出了一种跨语言多步推理方法,可以在不同语言中实现多步推理路径,从而达到解决复杂推理任务的目的,并在实验评估中表现出比现有提示方法更优的性能。
- CompCodeVet:一种基于编译器引导的编码数据集验证和增强方法
通过使用编译器作为教师,我们提出了 CompCodeVet,一种由编译器引导的 CoT 方法,用于从非可编译代码生成可编译代码。在两个开源代码数据集上对 CompCodeVet 的评估结果表明,CompCodeVet 具有改善 LLMs 训 - EMNLP探索语言模型的多步推理能力的机械解释
在这篇论文中,我们通过探索一种机械化方法来回答语言模型在多步推理任务中是通过抄袭预训练语料库中记忆的答案还是通过多步推理机制来完成这些任务的疑问。我们引入了一种新的探测方法(称为机械化探测器),从模型的注意力模式中恢复推理树,用于分析两个语 - 逐步奖励:作为推理导航器的步骤级奖励模型
研究论文探讨了在多步推理中利用反馈机制和搜索机制提高模型推理准确性的效果,提出了一种基于奖励模型的启发式贪婪搜索算法,与其他方法相比在数学推理和代码生成任务中表现出更好的结果,并展示了在推理任务中基于奖励模型的方法的鲁棒性。
- 通过模型选择实现鲁棒的多模式推理
我们提出了一个名为 $ extit {M}^3$ 框架的插件,用于提高多模态代理在多步推理中的模型选择和鲁棒性,同时创建了一个新的数据集 MS-GQA,用于研究多模态代理中的模型选择挑战,并通过实验证明我们的框架能够动态地选择模型,考虑用户