Symbol-LLM: 面向大型语言模型的基础符号中心化界面
该论文研究了大型语言模型作为符号推理器的潜在应用,提出了一个针对符号挑战和实现游戏目标的 LLM 代理,并通过实验结果证明了其能显著增强 LLMs 作为符号推理自动化代理的能力,对涉及符号任务的基于文本的游戏取得了 88% 的平均性能。
Jan, 2024
对于数据驱动的大型语言模型(LLM)的相对成功,我们认为有一些误解,因为(i)LLM 不能依赖于事实信息,因为对于 LLM 来说,所有输入的文本(事实性或非事实性)在权重上都是一样的;(ii)由于 LLM 的子符号本质,这些模型对语言的所谓 ' 知识 ' 总是淹没在亿万微观特征(权重)中的,这些特征本身都没有意义;以及(iii)在几种语言环境中,LLM 经常无法进行正确推断(例如,名词复合物、共述、量词作用域的歧视、意向性语境)。我们认为数据驱动的大型语言模型(LLM)的相对成功不是象征性与子符号性辩论的反映,而是在规模上应用自下而上的逆向工程语言的成功策略的反映,因此我们在本文中建议在符号设置中应用有效的自下而上策略,从而实现符号化的、可解释的和本体论基础的语言模型。
Sep, 2023
通过将成功的自底向上策略应用于符号化环境中,我们提出使用具有符号性、语言不可知性和本体论基础的大型语言模型,以在规模上逆向工程语言,从而解决大型语言模型中的难题。
Aug, 2023
Logic-LM 是一种将大型语言模型与符号推理相结合的框架,通过首先使用大型语言模型将自然语言问题转化为符号形式,然后进行确定性符号求解,以及自我精炼阶段来修正符号形式,在 ProofWriter、PrOntoQA、FOLIO 和 LogicalDeduction 等四个逻辑推理数据集上的结果表明,与仅使用大型语言模型相比,我们的方法可以显著提高逻辑推理的性能。
May, 2023
本文讨论了大规模语言模型的局限性和其基于深度神经网络的内在架构所造成的影响,提出了使用符号表示和基于底层反向工程重构语言的方法来弥补这些局限性。
May, 2023
本篇论文提出 SymGen,一种使用 LLMs 生成注释昂贵的符号语言数据的方法。与 LLMs 相比,SymGen 可以生成与人类注释数据效果相当或更好的数据,同时节省了大量的注释工作量。
May, 2023
人的推理可以理解为直觉、联想的 “系统 1” 和理性、逻辑的 “系统 2” 之间的协作。对于现有的视觉活动理解中的 “系统 1” 类似方法,整合 “系统 2” 处理以提高解释性、泛化性和数据效率至关重要。人类活动推理的一种可能路径是构建一个由符号和规则组成的符号系统,其中一条规则连接多个符号,暗示人类的知识和推理能力。先前的方法在不断进步,但由于手工制作的符号数量有限和基于视觉的注释的规则有限,从而未能涵盖活动的复杂模式并缺乏组合泛化。为了克服这些缺陷,我们提出了一个新的符号系统,具有两个理想的重要特性:广覆盖的符号和合理的规则。通过手动注释来收集大量的人类知识以实例化这个符号系统是昂贵的。相反,我们利用最近 LLMs(大型语言模型)的进展作为这两个理想属性的近似,即来自大型语言模型的符号(Symbol-LLM)。然后,给定一张图像,从图像中提取并检查视觉内容作为符号,并通过模糊逻辑计算的规则推理出活动的语义。我们的方法在广泛的活动理解任务中显示了优越性。代码和数据可以在此 https URL 找到。
Nov, 2023
大型语言模型在各种任务中取得了令人印象深刻的表现,即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了 Llama 2 家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型(Llama 2 Chat)以及两个专门设计用于解决数学问题的经过微调的 Llama 2 版本(MAmmoTH 和 MetaMath)。我们观察到,增加模型规模并在相关任务上进行微调可以显著提高性能。此外,通过使用细粒度的评估指标,我们发现这种性能提升主要出现在复杂度较低的数学公式上,尽管对于最大的经过微调的模型来说,这些公式通常仍然具有一定挑战性。
Jun, 2024