大型语言模型与扩展的丘奇-图灵论题
我们展示了通过增加外部记忆来增强变压器型大语言模型以实现计算机普适性的方法。在不修改语言模型权重的情况下,我们将迭代设计被存储的指令计算机以精确模拟通用图灵机 U 15,2,从而证明了这一方法的可行性。
Jan, 2023
利用大型语言模型(LLMs)加速研究理论计算机科学和数学中最重要的开放性问题之一P与NP问题的一项工作,提出了一种名为苏格拉底推理的广义框架,通过LLMs促进复杂问题解决的深度思考。实验证明GPT-4在97次对话中通过苛刻的推理得出结论“P≠NP”,从而揭示了LLMs广泛解空间中的新见解,为科学中的LLMs提供了启示。
Sep, 2023
大语言模型的评估方法学的引入和标准化是一个重要的挑战,本文追溯了LLM评估的历史轨迹,从Alan Turing提出的基础问题到现代人工智能研究的时代。我们将LLM的发展划分为不同的时期,每个时期都有其独特的基准和评估标准。随着LLM越来越像人类行为,传统的评估指标,如图灵测试,变得不太可靠了。我们强调了对统一评估体系的迫切需求,考虑到这些模型的更广泛的社会影响。通过对常见评估方法的分析,我们主张在评估方法上进行定性转变,强调标准化和客观标准的重要性。本研究呼吁人工智能社区共同解决LLM评估的挑战,确保其可靠性、公正性和社会利益。
Nov, 2023
通过将代码集成到大型语言模型的训练数据中,可以提高语言模型的代码生成能力、推理能力以及生成结构化和精确的中间步骤,并将其转化为智能代理在复杂自然语言任务中的应用。
Jan, 2024
我们研究了大型语言模型(LLMs)模拟计算机代码和算法执行的程度。通过研究直线程序,我们发现当前的LLMs在处理简单程序时表现不佳,随着代码长度的增加,性能迅速下降。我们进一步研究了LLMs模拟包含关键路径和冗余指令的程序的能力,并展示了常规排序算法和嵌套循环的情况。我们观察到LLMs只能在短程序或标准过程中以低错误率的顺序执行指令。LLMs的代码模拟与其模式识别和记忆能力存在着张力:在需要避免记忆的任务中,我们提出了一种新的提示方法,逐行模拟代码执行。经验证实,我们的新的模拟链(CoSm)方法通过避免记忆的问题改进了标准的思维链提示方法。
Jan, 2024
大型语言模型在各种任务中取得了令人印象深刻的表现,即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了Llama 2家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型(Llama 2 Chat)以及两个专门设计用于解决数学问题的经过微调的Llama 2版本(MAmmoTH和MetaMath)。我们观察到,增加模型规模并在相关任务上进行微调可以显著提高性能。此外,通过使用细粒度的评估指标,我们发现这种性能提升主要出现在复杂度较低的数学公式上,尽管对于最大的经过微调的模型来说,这些公式通常仍然具有一定挑战性。
Jun, 2024
当今人工智能应用在自然语言处理任务中利用大语言模型(LLMs)的知识和推理能力。为了捕捉这些计算的本质,包括那些尚未实践的,我们通过采用一簇LLMs作为oracle,扩展了OTMs的概念。我们提出了四个变种:基本的、增强的、容错、和ϵ-容错。前两个变种常见,而后两个专门设计用来解决LLM的幻觉、偏见和不一致性,以确保可靠的结果。
Jun, 2024
通过对大型语言模型(LLMs)的几何理解,我们探索了大型语言模型(LLMs)的推理能力,建立了LLMs的表达能力和自注意力图的密度之间的联系,通过理论分析和玩具示例证明了更高的内在维度意味着更大的LLM表达能力,并提供了将几何框架与增强LLM推理能力方法中的最新进展相联系的经验证据。
Jul, 2024