大型语言模型的符号能力研究
本文研究了大型预训练语言模型在符号操作任务上的能力,发现其对于简单的符号操作任务如复制、反转、加法等存在局限,并提出了基于位置标记,细粒度计算步骤以及可调用程序的方法来解决该问题。结果显示,这些方法均无法完全解决最简单的加法归纳问题。最后,介绍了一种带有辅导的LMs,可以在OOD和重复符号的情况下实现100%的准确性。
Aug, 2022
该论文研究了大型语言模型在数学问题推理方面的能力,特别关注符号推理在数值问题中的准确性,并通过自提示的方法提高了符号准确性,为模型提供了简洁可验证的推理能力。
Aug, 2023
数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的LLM技术范围、影响LLMs解决数学问题的因素和问题,并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。
Jan, 2024
大型语言模型在各种任务中取得了令人印象深刻的表现,即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了Llama 2家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型(Llama 2 Chat)以及两个专门设计用于解决数学问题的经过微调的Llama 2版本(MAmmoTH和MetaMath)。我们观察到,增加模型规模并在相关任务上进行微调可以显著提高性能。此外,通过使用细粒度的评估指标,我们发现这种性能提升主要出现在复杂度较低的数学公式上,尽管对于最大的经过微调的模型来说,这些公式通常仍然具有一定挑战性。
Jun, 2024
该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现,研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。
Aug, 2024
本研究针对大语言模型(LLMs)在算术计算中的不可靠性问题,揭示了其计算过程中的特定机制。我们发现少量的注意力头在运算中起着关键作用,并通过对这些关键头进行选择性微调,显著提升了LLMs的数学计算能力,而非数学任务的表现不受影响。此工作为理解和提升LLMs的算术计算能力奠定了基础。
Sep, 2024
本研究针对大型语言模型(LLMs)在数学推理能力上的不足,通过引入GSM-Symbolic基准,解决了现有评估的局限性,提供了更可靠的度量指标。研究发现,尽管LLMs在GSM8K基准测试上表现改进,但其真实的数学推理能力仍然不佳,特别是在问题中添加额外条款时性能急剧下降。这一发现为理解LLMs的能力和限制提供了新的视角。
Oct, 2024
本研究探讨了大型语言模型(LLMs)在推理能力方面的不足,尤其是在解释其推理过程和结论方面的缺失。文章提出了一种新的视角来审视LLMs的符号推理能力,并识别出当前研究的不足之处,展望未来的研究趋势,强调了LLMs在解释性方面的潜在影响。
Oct, 2024
本研究解决了大语言模型(LLMs)在算术运算中能力的机制了解不足的问题。我们提出LLMs通过捕捉代数结构(如交换性和身份属性)来学习算术,实验证明这些结构能够通过输入-输出关系进行推广并增强模型的算术能力。这为改善LLMs的算术表现提供了新的见解。
Nov, 2024