- OlaGPT:为 LLM 赋能人类般的问题解决能力
本研究提出了一种名为 OlaGPT 的智能框架,旨在模拟人类认知的不同模块并设计 COT 模板以解决复杂的推理挑战。经过多次实验,OlaGPT 的表现超越了现有的基准,并可在 GitHub 上获得实现。
- ACLPlan-and-Solve Prompting: 通过大型语言模型改进零样本思维链推理
通过使用 “Let's think step by step” 等输入提示来生成排列步骤,Plan-and-Solve (PS) Prompting 解决了 Zero-shot-CoT 存在的缺失计算错误,缺失步骤错误和语义误解错误,是一种 - 何时需要为 ChatGPT 启用思维链提示?
通过使用 Chain-of-Thought 提示,多达数步的复杂推理可以被提取。然而,在 ChatGPT 上,这种提示对于某些任务不再有效。这反映了指令过度拟合 / 偏见的潜在风险,这种情况在训练 LLMs 时变得更为普遍。
- REFINER: 在中间表示上进行推理反馈
以 REINFER 为框架,使用自动化反馈的机器模型来有针对性地改善语言模型在推理任务中的表现。实验证明,在三个不同的推理任务中,REFINER 表现明显优于同等规模的基线语言模型。
- 使用标记数据的思维链自动提示增强与选择
本文提出了一种使用 Automate-CoT 自动扩展和选择合理链来推动 CoT 的方法,该方法通过构建候选池从标签生成的机器理性链中选择多个理性链的最佳组合,以推进大型语言模型的推理能力,并在算术推理、常识推理、符号推理和非推理任务中取得 - 合成提示:生成大型语言模型的思维链演示
本文介绍了 Synthetic prompting 方法,该方法利用少量手工示例来提示模型自行生成更多示例,并选择有效的演示文稿以引出更好的推理。在数字、符号和算法推理任务上评估了该方法,并表明其优于现有提示技术。
- 忠实的串联思考推理
提出 Faithful CoT 框架以实现准确性和真实性的协同作用,通过将推理任务分解为翻译和问题求解两个阶段,使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。
- 使用过程和结果反馈解决数学应用题
比较了基于结果的方法和基于过程的方法,在语言模型自动推理任务上提高了最佳结果。
- 大型语言模型中的长度泛化探究
该研究探讨了基于 transformer 的语言模型的长度推广能力,发现预训练大语言模型的上下文学习能力与记事本提示相结合能大大改善长度推广,并鉴别了错误的共同来源,为赋予语言模型推广到更长问题的能力提供了新的机会。
- 关于提高语言模型推理能力的进展
本文介绍了一种名为 DiVeRSe 的方法,通过增加提示多样性和引入验证器来进一步提高大型语言模型的推理能力,成功地在八个基准测试中的六个上达到了最新的最先进性能,其中包括 GSM8K。
- 个体人类推理的量化符号方法
本文使用非单调推理和计算机科学中的答案集编码(ASP)来形式化作为认知原则的文献发现,建立一个名为‘plausibility’的推理概念,并将其用于测试现有实验的效果并解释不同的多数响应。
- ACLClarET: 面向事件生成和分类的相关性感知上下文到事件的预训练变形器
本文提出了一种预训练的名为 ClarET 的通用事件感知上下文到事件转换器,以解决许多事件中心推理任务中上下文关联事件的生成问题。该方法具有很强的一般适用性和有效性。
- 基于双智能体的知识图谱推理学习
本文提出了一个双智能体强化学习框架,通过将 GIANT 代理快速搜索集群级路径并为另一个代理 DWARF 提供逐阶段的提示来解决长路径推理挑战,并在几个知识图推理基准测试上取得了更高的准确性和效率。
- 能否学习算法?使用循环网络从易到难问题进行泛化
本文讨论了深度神经网络在视觉模式识别方面的强大能力,但在推理任务中仍然表现不足,引入了使用循环神经网络解决问题的算法,并通过前缀和计算,迷宫和棋类游戏等问题进行了实验研究。
- ACL预测或比较:走向可解释的定性推理
本研究通过将定性关系任务分类成预测和比较两种类型,并采用端到端训练的神经网络模块来模拟这两种推理过程,实验结果在两个问答数据集 QuaRTz 和 QuaRel 上展示了我们方法的有效性和泛化能力,并提供模块的中间输出来使推理过程更容易解释。
- 常识知识的维度
本文旨在通过整合常识知识维度,调查了许多常识知识来源并将它们合并成 13 个常识知识维度,其中时间和渴望 / 目标维度对于现有的下游推理任务非常有益,而不同性和词汇知识对这些任务的影响相对较小。
- EMNLP使用 WikiHow 进行目标、步骤和时间排序的推理
该研究提出了关于过程事件中两种类型的推理任务:目标 - 步骤关系和步骤 - 步骤时间关系。通过基于 how-to 文章的 wikiHow 数据集,建立人类验证的测试集和生成自动训练集。经实验证明,训练集有效地提高了在 SWAG,Snips - MoVie: 重温调制卷积,用于视觉计数及更多应用
本文主要研究采用 MoVie 方法实现视觉计数,该方法采用局部融合查询和图像的调制卷积,以实现隐式和整体的推理,具有较高的计数准确性和通用性,同时可拓展至其他推理任务。
- CVPR通过子问题审视 VQA 模型:内省 VQA 模型
通过创建 Reasoning 分离的 VQA 数据集和收集 VQA- introspect 数据集,本文研究了现有 VQA 模型在感知和推理问题上的表现一致性问题,并提出一种名为 SQuINT 的方法来提高模型的一致性,同时在 VQA 的 - ICLRCLEVRER:用于视频表示和推理的碰撞事件
介绍了一种新的视频数据集 CLEVRER,以组合描述、解释、预测和假设性问题的方式评估计算模型,结果表明现有的视觉推理模型在因果推理任务(解释性、预测性和假设性)方面表现不佳,需要在模型中融合语言输入和因果关系的理解。