将 GPT-4 应用于未发表的正式语言的实验结果
GPT-4 的研究调查发现,尽管该模型可以重复、改编和润色其之前见过的数学证明,然而它并未实际理解基本数学概念,而在形式语言中证明数学定理的任务与搜索引擎如 Google 的方法相当,而预测句子中的下一个词可能是一种错误的方法,往往会导致过度推断和最终失败。
Nov, 2023
本文探讨了基于 Transformer 的语言模型在自动定理证明中的应用,提出了基于语言模型的生成能够解决自动定理证明器与人类相比的主要限制之一 —— 原始数学术语的生成问题。我们提出了一个自动证明器和证明辅助工具 GPT-f,使用 Metamath 形式语言,并分析了其性能。 GPT-f 发现了新的简短证明,并被采纳为正式数学社区所接受,这是我们所知道的第一次基于深度学习的系统为正式数学社区做出的贡献。
Sep, 2020
本文探索使用 GPT-4 解决更复杂的数学问题,并评估了各种使用 GPT-4 的方法,包括作者提出的新的对话式解决框架 - MathChat。针对 MATH 数据集中的困难高中竞赛题进行了评估,结果表明所提出的对话式方法具有优势。
Jun, 2023
GPT-4 在计算材料科学中应用可以解决科学软件采用自定义输入语言的挑战以及由于描述模拟方法不足导致的研究结果复现性差的问题,通过生成正确的输入文件和详细的计算任务描述,减少研究者常规任务、加速新用户培训并提高结果可复现性。
Oct, 2023
通过与类型检查筛选相结合,我们使用自一致性方法对基于 GPT-4o 模型的 GPT-4o 型进行解码,使得自然语言能够更准确地转化为形式语言,并在 Lean 4 的 ProofNet 中实现 53.2% 的新的最优效果。
Jun, 2024
近年来,在自然语言处理方面取得突破性进展的大型语言模型(LLM)的出现,展示了其在包括理解、生成和翻译自然语言甚至超越语言处理的任务方面的卓越能力。本文报告中,我们深入研究了 LLM 在科学发现环境中的性能,重点关注 GPT-4,这一最先进的语言模型。我们的调查涉及药物发现、生物学、计算化学(密度泛函理论(DFT)和分子动力学(MD))、材料设计和偏微分方程(PDE)等多个科学领域。评估 GPT-4 在科学任务上的表现对于揭示其在各个研究领域中的潜力、验证其特定领域的专长、加速科学进展、优化资源分配、指导未来模型发展以及促进跨学科研究至关重要。我们的探索方法主要包括专家驱动的案例评估,提供对模型理解复杂科学概念和关系的定性洞见,以及偶尔的基准测试,定量评估模型解决明确定义的特定领域问题的能力。我们的初步探索表明,GPT-4 在各种科学应用中展示出有希望的潜力,显示出处理复杂问题解决和知识整合任务的能力。总体而言,我们评估了 GPT-4 的知识库、科学理解、科学数值计算能力以及各种科学预测能力。
Nov, 2023
大型语言模型可以准确执行包括多位数字乘法、小数和分数在内的算术运算,并且能够在无数据泄露情况下实现几乎 100% 的准确度,超越了 GPT-4。此外,我们通过在包含多步骤算术运算和文本描述的数据集上对 GLM-10B 进行微调,开发出的 MathGLM 在 5000 个样本的中文数学问题测试集上展现了与 GPT-4 相似的性能。
Sep, 2023
本文通过在逻辑单词谜题上比较使用 ChatGPT 和 GPT-4 直接解决问题和提取问题文本事实并使用定理证明器解决两种方法,并得出后者是正确的方法来研究了利用大语言模型解决自然语言问题需要一些非平凡的推理。
Apr, 2023
该研究对基于 GPT-4 模型的 Python 编程自动测试提供了详细的分析和实验结果,这表明自然语言处理技术在编程教育类中有很大的潜力,并且给程序设计教育提出了新的问题。
Jun, 2023