reasoning tasks | BriefGPT - AI 论文速递

关键词reasoning tasks

搜索结果 - 80

R$^3$ 提示：在嘈杂的语境下为大型语言模型的思路链进行检查、改述和解决
通过使用 R3 提示方法来处理嘈杂语境下的 CoT 推理，能够提高 LLM 在推理任务中的准确性。与现有的 CoT 提示方法相比，R3 提示方法在噪声环境下显著优越，通过与 GPT-3.5-turbo 的实验观察，平均推理准确性提高了 3.
PDF8 months ago
什么是一个好问题？面向任务的问答与事实级屏蔽
大语言模型在解决任务时常常缺乏与用户或第三方进行追问的能力，导致其难以生成能够促进任务成功的问题。通过定义及框架，本研究提出了自然语言任务导向的追问方法，并通过自监督学习生成了追问数据集，实验证明当前的零样本模型在提问中相较于人工标注者存在
PDF9 months ago
大型语言模型的自主树搜索能力
大型语言模型在高级提示技术方面具有出色的推理能力，但在需要探索、战略前瞻和序贯决策的任务上存在不足。最近的研究通过利用外部程序定义搜索逻辑，使 LLMs 能够执行被动树搜索以解决更具挑战性的推理任务。我们提出了一种名为 LLM 的自主树搜索
PDF9 months ago
大型语言模型可以学习规则
使用大型语言模型（LLM）进行推理任务时，我们介绍了一种名为 Hypotheses-to-Theories（HtT）的框架，该框架学习了一个用于与 LLM 进行推理的规则库。通过实验，我们证明 HtT 能够显著提高现有的提示方法的准确性，并
PDF9 months ago
评估 ChatGPT 的推理能力
ChatGPT 应用于推理任务时产生的逻辑错误的量化研究，包括逻辑错误的分类和基于大型语言模型产生的推理错误的标注答案。
PDF9 months ago
大型语言模型级联与思维混合表达用于高效推理
通过构建 LLM 级联模型来实现节约成本，特别是在推理任务中的使用，通过应用弱一些但更便宜的 LLM 来解决简单问题，只有复杂问题才需要更强大且更昂贵的 LLM，实现这种决策的关键是通过检查较弱 LLM 的 “答案一致性” 来判断问题的难度
PDF9 months ago
大型语言模型作为类比推理者
通过模拟推理为大型语言模型自动生成相关样本或知识的新提示方法在各种推理任务中表现优于零示范的链式思考提示和人工少量示范的链式思考，包括 GSM8K 和 MATH 中的数学问题解决、Codeforces 中的代码生成和 BIG-Bench 中
PDF9 months ago
Corex：通过多模型协同推动复杂推理的边界
大型语言模型 (Corex) 通过引入多模型协作策略，在处理复杂任务时改善了推理过程的准确性、可靠性和可信度，通过实验证明协调多个大型语言模型的工作比现有方法表现出更好的性能，并促进了不同大型语言模型的标注效率。
PDF9 months ago
结构图：视觉图表理解的感知、结构化和推理
通过提出统一且高效标签的学习范式，我们在不同的下游任务中建立了一个联合感知和推理任务的框架，并通过改进图表信息处理和结构化信息提取，实现了更好的图表理解。
PDF10 months ago
对比解码提升大型语言模型的推理能力
利用对比解码方法生成的文本展现在各种推理任务中相比贪婪解码有着显著的提升，并在 HellaSwag 常识推理基准测试中胜过 LLaMA 2、GPT-3.5 和 PaLM 2-L，在 GSM8K 数学词语推理基准测试中超过 LLaMA 2、G
PDF10 months ago
为推理具体化代理提供的数据源
最近使用机器学习模型进行推理任务的进展主要受到新的模型架构、大规模预训练方案和专门的推理数据集的推动。为了进一步追求这些进展，本研究介绍了一种与具体智能体结合的用于机器推理的数据生成器。所生成的数据包括模板化的文本查询和答案，并与编码为数据
PDF10 months ago
动态模块化推理用于构成结构化解释生成
我们提出了一个新的结构化解释生成任务的设置，以促进组合推理研究，并通过模块化的推理模型 MORSE 来提高神经模型的组合泛化能力。实验证明 MORSE 的动态推理模块和泛化能力的有效性。
PDF10 months ago
时间常识推理与获取综述
时间常识推理是指理解短语、动作和事件的典型时间背景，并在需要此类知识的问题上使用它进行推理的能力。本文概述了在时间常识推理领域的研究，特别关注通过多种增强和它们在日益增多的数据集上的评估来提高语言模型性能。然而，这些增强模型在处理时间常识属
PDFa year ago
使用相对位置标签将异构图与实体感知自注意力集成到阅读理解模型中
提出了一种新的关注模式，将异构图的推理知识集成到变压器架构中，用于解决复杂推理任务。
PDFa year ago
ACL思维链提示促进知识增强
本文提出了 CoT-KA，一种基于思维链的深度学习知识增强方法，将外部知识融入到深度模型中，结果表明在各种推理任务的十一个公开基准测试中，CoT-KA 胜过了传统的 CoT-based 方法和无增强的方法。
PDFa year ago
语言通才与专才：多语言迁移能力的实证再探
本文研究英语中心模型的多语言迁移能力，发现这些模型不仅具有多语言迁移能力，而且在某些情况下可能优于多语言预训练模型，在不同类型的任务中表现出不同的多语言迁移能力，并提供了有价值的洞见，以增强英语中心模型的多语言推理能力。
PDFa year ago
语言模型可通过少量示例引入推理，从而提高事件预测能力
本文研究了大型语言模型在实际事件中实现推理的能力，设计了一个建模和预测框架，其中大型语言模型执行推断，以协助事件序列模型提高预测准确性，并通过在 Amazon Review 和 GDELT 两个具有挑战性的实际数据集上进行的广泛实验，展示了
PDFa year ago
使用代码执行解锁大型语言模型的时间问答
本研究旨在探讨大型语言模型在处理复杂时间推理能力问题上的挑战，并提出了一种结合自然语言处理和逻辑推理的框架，证明了其在时间限制推理任务方面的有效性。
PDFa year ago
OlaGPT：为 LLM 赋能人类般的问题解决能力
本研究提出了一种名为 OlaGPT 的智能框架，旨在模拟人类认知的不同模块并设计 COT 模板以解决复杂的推理挑战。经过多次实验，OlaGPT 的表现超越了现有的基准，并可在 GitHub 上获得实现。
PDFa year ago
ACLPlan-and-Solve Prompting: 通过大型语言模型改进零样本思维链推理
通过使用 “Let's think step by step” 等输入提示来生成排列步骤，Plan-and-Solve (PS) Prompting 解决了 Zero-shot-CoT 存在的缺失计算错误，缺失步骤错误和语义误解错误，是一种
PDFa year ago