关键词logical reasoning tasks
搜索结果 - 6
- 探索令牌偏差:大型语言模型尚未成为真正的推理者
该研究介绍了一个假设检验框架,用于评估大型语言模型(LLMs)是否具有真正的推理能力,还是主要依赖于令牌偏差。我们超越准确性的评估,旨在调查 LLMs 在解决逻辑推理任务时的令牌偏差。具体而言,我们开发了精心控制的合成数据集,其中包括合取谬 - 通过训练动力学探索 “逆转诅咒” 的理论理解
通过训练动力学,理论分析自回归模型中的逆转问题,揭示了逆转诅咒发生的核心原因是自回归模型的权重存在不对称性;同时,证明了链式思维在一层变压器中的必要性,并进行了与多层变压器的实验证实。
- 从非确定性到确定性:用大型语言模型增强逻辑推理能力
LLMs 在推理任务方面取得了重大进展,并提出了 DetermLR 的推理框架来解决选择合适推理结构、充分利用已知条件以及考虑历史推理经验等挑战,该框架通过逐步积累明确前提来使结论逐渐清晰,并在四项具有挑战性的逻辑推理任务上表现出较高的效率 - EMNLPPOE: 多项选择推理的排除过程
在多项选择推理任务中,语言模型借鉴了人类首先排除错误选项的两步策略以提高性能,通过引入排除过程(POE)的两步评分方法,实验证明 POE 在逻辑推理任务上表现出色,并适用于 ChatGPT 这样的大型语言模型。
- 知识图谱补全的双重置换等变性
本文提出了一种新的 Knowledge Graphs 表示形式:双重置换属性图,并介绍了一种实现该表示形式的神经网络架构,该方法在逻辑推理任务上实现了 100%的准确性。
- 语言模型对推理的人类内容效应展示
大型语言模型在抽象推理任务上表现优秀,但与人类推理问题存在相似的缺陷,同时受到人类知识和信仰的影响,使用可信的现实情境方案进行推理可以提高推理质量,这种关联性帮助我们了解认知效应和语言模型表现的因素。