基于Transformer的描述逻辑上下文推理
本论文研究一种新的知识表示方法,采用自然语言句子代替形式化表示,并使用合成数据训练Transformer模型进行推理。该方法有望提供一种新的“软定理证明器”的运作方式,用于问题回答,实现解释性、校正性和反事实推理等新功能。
Feb, 2020
研究Transformer语言模型在自然语言中进行基于逻辑推理的任务,探究它们的系统泛化能力,发现其在逆向推理证明方面表现更优,并且发现没有经过证明生成训练的模型更适合处理长证明的问题。研究结果强调了TLM在逻辑推理中的系统泛化行为,并且对其核心推理策略的深入研究提出了启示。
Sep, 2020
本研究通过提出一种新的方法构建具有挑战性的自然语言可满足性问题数据集,以研究transformer模型的推理能力,发现这些模型在解决困难的NLSat问题方面表现出非常强的能力,但仍然存在限制,包括需要选取适当的训练数据才能适用于更大的问题和限制其推理能力的问题。
Dec, 2021
本篇论文提出了一种基于预训练的Transformer模型fine-tune的方法,使之具备在对话语境中进行逻辑推理和回答问题的能力,而无需额外的训练数据集。研究结果表明,该模型在已训练属性上能够达到90%以上的精度,在适当的对话语境下能够提取出适当的限制条件传递给下游组件(e.g. 知识库)。
Feb, 2022
本文对深度学习在自然语言处理(NLP)方面的最新应用进行了调查研究,发现transformer-based language models在检测受控自然语言片段的有效推理方面表现出明显的过拟合问题,未能获取主导推理的逻辑原则。
Nov, 2022
本研究分析了transformer-based语言模型中的概率逻辑规则应用,并提出了Probabilistic Constraint Training (PCT)方法,该方法显式地模拟了概率逻辑推理,并在新的QA基准中评估了其准确性和可解释性。结果表明,该方法可以提高基本语言模型在需要概率逻辑推理时的准确性和解释性,并且该技术的学习也可适用于新的情境。
May, 2023
本研究初步探讨了生成 Transformer 模型从给定前提中演绎推理的能力,发现其性能与训练设置和参数规模有显著差异,而且推理链的长度一般不会影响性能,除了 OpenAI GPT-3 和 GPT-3.5 模型。研究考虑了大小从 1.17 亿到 1750 亿参数的多种变压器解码器模型。
May, 2023
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行“推理”吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
本研究针对现有评估基于变换器的语言模型的逻辑推理能力方法过于简单的问题,通过构建包含384,000个示例的自然语言数据集DELTA$_D$,在推理深度和语言复杂性上进行扩展。研究表明,经过我们的数据集微调的DeBERTa模型在蕴涵检查任务中表现出色,而GPT系列模型在少量样本下也能显著提升表现,展示了新的推理能力。
Oct, 2024