评估统计语言模型作为实用推理器
这篇论文研究 LLMs 在理解语境方面的能力,通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸,需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。
Oct, 2022
当前大型语言模型(LLMs)在生成符合语法、流畅的文本方面无与伦比。这篇论文针对 LLMs 的能力进行了辩论,并通过批判性评估三个经常在批评中出现的观点来展示 LLMs 仍需更多细化。其次,文章从实证和理论的角度提出了对 LLMs 中 “真正” 的理解和意向性的实用观点,并讨论了在何种情况下将心理状态归因于 LLMs 对于这一日益重要的技术在社会中具有实用的哲学背景。
Oct, 2023
本文研究了大型语言模型 LLMs 的推理能力,通过对语义从推理过程中的剥离进行实验,发现语义在 LLMs 的推理中起着至关重要的作用,但在符号逻辑和违反常识的推理任务中表现出困难。作者提出了这一发现的新视角,并呼吁深入研究 LLMs 的推理机制。
May, 2023
利用贝叶斯统计模型,研究了大型语言模型(LLMs)在人类行为预测方面的类人特性,发现 LLMs 不能准确捕获人类数据的各项细节,但在聚合和条件水平的预测方面可以有效适配人类数据,显示出某些不同的方法可以使其得到充分的分布式预测。
Jun, 2024
大型语言模型在逻辑推理和符号推理等复杂场景中表现出色,但其在理解逻辑规则上存在限制,本文通过反事实方法探讨了大型语言模型的推理能力,强调了加强机制以确保其可靠的逻辑推理的需求。
Feb, 2024
本研究考虑了大型语言模型(LLMs)在推理涉及概率值明确量化的文本时面临的挑战。通过引入贝叶斯语言推理数据集(BLInD),我们详细说明了 LLMs 在涉及概率推理的任务中的限制,并提出了几种将问题映射到不同形式表示的策略。我们通过在 BLInD 上进行评估以及对因果推理问答数据集的适应性改编等实验证明了这些方法的实际效果。
Feb, 2024
本文介绍了一种新颖的贝叶斯提示方法,通过使用一个语言大模型(LLMs)中的一个模糊概率图模型(PGM)来实现无需训练的贝叶斯推理。我们的模型在多个组合推理任务中取得了良好的效果,有效提升了置信度的引发和文本生成质量,显示出在模拟不确定性方面提高人工智能语言理解系统的潜力。
Jun, 2024
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
通过比较 GPT-3、ChatGPT 和 GPT-4 模型的分析结果,研究发现这些模型能够可靠地重现 AMR 的基本格式,并且通常能够捕捉到核心事件、论证和修饰结构,但模型的输出容易出现频繁和重大错误,从整体上来看,即使在演示中,模型也几乎没有成功地产生完全准确的解析结果,这表明这些模型尽管能够捕捉到语义结构的某些方面,但在支持完全准确的语义分析或解析方面仍存在关键的局限性。
Oct, 2023