GPT-2如何计算大于:对预先训练的语言模型中的数学能力进行解释
本文研究预训练语言模型在数值推理方面的能力,以及该能力强弱与预训练数据中各项词语的出现频率之间的关系。研究结果表明,模型对出现频率较高的词语表现更为准确。此外,作者认为在解释理论评价结果时,应考虑到预训练数据带来的影响。
Feb, 2022
本研究选取了6个代表性的GPT系列模型,对它们在21个数据集上进行了9项自然语言任务的性能评估,发现尽管引入强化学习任务和人性化反馈机制提高了GPT系列模型生成人类语言的能力,但也有牺牲部分任务解决能力的代价,同时还有提高模型的鲁棒性的空间。
Mar, 2023
本文报道了OpenAI发展的最新模型GPT-4,证明其不仅能够掌握语言,而且在数学、编码、视觉、医学、法律和心理等多个领域中都能够解决新颖且困难的任务,表现接近于甚至超过人类的水平,代表了一种新的群体智能的语言模型,并可能被视为人工通用智能(AGI)系统的早期、但尚不完整的版本。同时,本文还探讨了GPT-4的局限性,指出其可能需要超越下一个预测的新范式,为实现更深入和全面的AGI版本的发展面临的挑战,以及该技术飞跃的社会影响和未来研究方向的反思。
Mar, 2023
利用大型语言模型(LLMs)进行特定领域的数学推导是一项新兴的研究方向,可以帮助发现模型的局限性,潜在地支持数学发现。本文利用符号引擎在大规模上生成方程的推导,并研究LLMs在从前提中推导目标方程时的能力。实证结果表明,fine-tuned FLAN-T5-large (MathT5)在绝对性能方面超过了GPT模型在所有静态和分布外的测试集上。然而,深入分析发现,fine-tuned模型对于涉及未知符号的扰动(以及较小程度的方程结构更改)更为敏感。此外,我们分析了1.7K个方程和200多个推导,突出了常见的推理错误,如包含不正确、无关或多余的方程,以及跳过推导步骤的倾向。最后,我们探讨了评估数学推导的现有指标的适用性,发现尽管它们能捕捉到对扰动的敏感性等一般属性,但无法凸显细粒度的推理错误和模型之间的重要差异。总体来说,本研究表明在合成数据上训练模型可以提高其数学能力,超越更大的架构。
Jul, 2023
该研究调查了语言模型在计算预测和问题解决能力方面的应用,以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本,该研究成功地训练了一个轻量级语言模型,并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设,即语言模型在适当的内部表示映射后,计算发生在数值空间中,其工作类似于一个编码-回归-解码机器。
Aug, 2023
GPT-4的研究调查发现,尽管该模型可以重复、改编和润色其之前见过的数学证明,然而它并未实际理解基本数学概念,而在形式语言中证明数学定理的任务与搜索引擎如Google的方法相当,而预测句子中的下一个词可能是一种错误的方法,往往会导致过度推断和最终失败。
Nov, 2023
本研究旨在理解GPT-2 Small在预测三字母缩写任务中的行为,发现此预测是通过由8个注意力头组成的电路来实现的,其中约5%的头属于三个不同的作用组,而且这些头主要集中在缩写预测功能上。此外,我们还通过机械解释方法,发现关键的头使用了位置信息,该信息通过因果掩码机制进行传递。我们希望此研究为理解涉及多个令牌预测的更复杂行为奠定基础。
May, 2024
大语言模型的理解研究,重点是理解算法,通过层次结构设计、人类和大语言模型的研究,揭示相似性和差异性,该研究可用于跟踪人工智能在认知领域的进展。
Jun, 2024
本研究针对大语言模型(LLMs)在算术计算中的不可靠性问题,揭示了其计算过程中的特定机制。我们发现少量的注意力头在运算中起着关键作用,并通过对这些关键头进行选择性微调,显著提升了LLMs的数学计算能力,而非数学任务的表现不受影响。此工作为理解和提升LLMs的算术计算能力奠定了基础。
Sep, 2024