- 大型语言模型真的是良好的逻辑推理者吗?从演绎、归纳和举例推理的综合评估
本文针对大型语言模型的逻辑推理能力进行全面评估,选择 15 个经典数据集,评估模型的零点、单点和三点能力,提出客观和主观的细化评估方法,归纳出 LLMs 的逻辑推理能力的优势和不足并提出未来方向。
- V-LoL: 视觉逻辑学习诊断数据集
研究提出 V-LoL 数据集,将视觉和逻辑挑战相结合,探索 AI 系统在视觉逻辑学习方面的能力,并在传统符号 AI、神经网络 AI 和神经符号 AI 领域进行多种技术的评估。
- 大型语言模型作为税务律师:一个关于法律能力的案例研究
本篇论文探讨了大型语言模型(LLMs)在应用税法方面的能力,发现使用少量提示可以显着提高最先进的模型性能,但它们仍不能像专业的税务律师那样进行推理和判断。
- 基于知识的局部可观察条件下的 Ad Hoc 团队合作中的推理和学习
采用基于非单调逻辑推理以及少量有限数据所学的其他代理行为预测模型的架构,通过支持在线选择、适应和学习模型以及在部分可观测性和有限通信存在下与队友协作来解决无先协调时代理与队友协作问题,实验证明该模型的性能在简单和复杂情况下都优于或与最先进的 - 扰动证据下的推断:探测大型语言模型的学生模拟能力
本文探讨了大型语言模型(Large Language Models)能否在扭曲事实的情况下进行逻辑推理,即称为扭曲证据下的演绎(Deduction under Perturbed Evidence,DUPE)。通过在 StrategyQA - LogicLLM: 探索基于自监督逻辑增强训练的大型语言模型
本篇论文主要介绍了如何通过自监督后训练和上下文学习来增加逻辑知识,从而提高语言模型的逻辑推理能力,取得了比现有基线更好的效果。
- 基于逻辑驱动数据增强的对比学习,用于文本推理
该论文提出了基于 AMR-LE 方法的数据增广技术,并使用对比学习训练语言模型,可以在多个 NLP 任务中提高性能表现,包括 ReClor,LogiQA,MNLI,MRPC,RTE,QNLI 和 QQP。
- 一个简单的逻辑推理和统计学习生成模型
提出了一种基于贝叶斯模型可实现逻辑推理和统计学习的新方法,使得符号推理成为正向和反向过程的结果,并对学习和推理的研究提供了新的视角。
- 规则与动作的知识编纂
本文介绍了一种基于自然语言的知识选拔和推理方法 ——KALMRA,并且证明了它的有效性和适用性,同时用 ChatGPT 作为例子展示了 KALMRA 的逻辑推理能力。
- LLMs 中并非所有语言的质量相同:通过跨语言思维提示提高多语言能力
本研究提出了一种名为跨语言思维提示(XLT)的方法,通过激发跨语言和逻辑推理技能,改善了大语言模型的多语言能力,并在与推理、理解和生成有关的 7 个基准测试中进行了全面的评估,实验结果显示 XLT 不仅显著提高了各种多语种任务的性能,而且还 - 处理布尔网络最小陷阱空间的通用属性
本文通过引入 CEGAR 辅助解决量化命题逻辑公式的满足性问题,针对寻找 Boolean 网络的特定属性和综合布尔网络两个问题进行了逻辑推理,同时通过实现 Answer-Set Programming 的原型来证明算法良好的可扩展性。
- 扇贝:神经符号编程语言
Scallop 是一种结合深度学习和逻辑推理的语言,支持广泛的神经符号应用,并通过基于关系数据模型的灵活符号表示、基于 Datalog 的声明性逻辑编程语言以及基于证明半环理论的自动和高效可微分推理框架来实现这些目标。我们评估了 Scall - 评估 ChatGPT 和 GPT-4 的逻辑推理能力
本研究评估了 GPT-4 在逻辑推断任务中的性能,包括多项逻辑推断数据集的测试以及构建一个逻辑推理离散数据集进行实验。结论显示,尽管 GPT-4 表现优异,但逻辑推理对 ChatGPT 和 GPT-4 来说仍然是一项挑战。
- Polytuplet Loss: 训练阅读理解和逻辑推理模型的逆向方法
本文研究在阅读理解和逻辑推理测试中应用相对准确性的策略来训练迁移学习模型的有效性,提出了一种多元组损失函数 polytuplet loss function,研究结果表明使用此函数的模型优于现有基准模型,但需要进一步研究确定其优点。
- 自然语言作为知识表示的逻辑推理:一项调查
本文综述了一种新的逻辑推理范式,它使用自然语言作为知识表示(并使用预训练语言模型作为推理器),包括逻辑推理的哲学定义和分类、新范式的优势、基准和方法、新范式的挑战、未来的可取任务和方法以及与相关 NLP 领域的关系。这种新范式具有很好的前景 - MM人工智能中的归因分数和因果反事实解释
本文介绍了解释在人工智能中的重要性,特别是解释方法的新发展。通过讨论基于属性分数和因果关系的反事实解释法,强调了逻辑推理在处理反事实时的重要性和其对评分计算的作用。
- 大型语言模型是具有自我验证功能的推理器
提出了一种名为自验证的方法,该方法使用推理链的结论作为条件建立新的样本,并要求大型语言模型重新预测原始条件,从而降低了多任务精度误差。经过大量实验验证,此方法可以使大型语言模型避免出现不正确的推理链干扰,并实现具有竞争力的推理性能,可用于算 - APOLLO: 适应性预训练逻辑推理语言模型的简单方法
本文提出了一个适应性预训练语言模型 APOLLO,使用特定的逻辑推理关键词来选择维基百科的子集进行预训练,使用自我监督损失函数进行训练,无需特定的任务格式,与基线模型相比,在逻辑推理数据集上表现相当或更好。
- 神经符号化时空推理
本文介绍了如何通过在神经符号人工智能方向上融合逻辑推理和机器学习,来整合空间和时间知识,解决复杂的现实问题,包括自然语言处理、视觉问题回答和语义图像分割。
- 测量推断和规则理解能力的逻辑任务
通过提出逻辑任务的概念,该研究从更高的角度说明了近期大规模模型在算术推理中的局限性,并探讨了解决逻辑任务的方向和需要具备的系统需求。