利用大型语言模型解决和解释物理问题：接近人类水平

Sep, 2023

利用大型语言模型解决和解释物理问题：接近人类水平

Using Large Language Model to Solve and Explain Physics Word Problems Approaching Human Level

Jingzhe Ding, Yan Cen, Xinyuan Wei

TL;DR我们的研究表明，基于预训练文本的大型语言模型（LLM）不仅可以解决纯数学问题，还可以解决物理问题 - 即基于某些先前的物理知识进行计算和推理的问题。我们收集和注释了第一个物理问题数据集 - PhysQA，其中包含 1000 多个初中物理问题（关于运动学、质量和密度、力学、热学、电学）。然后我们使用 OpenAI 的 GPT3.5 生成了这些问题的答案，发现 GPT3.5 能够以零样本学习解决 49.3％的问题，以少样本学习解决 73.2％的问题。这个结果表明，通过使用类似问题及其答案作为提示，LLM 可以解决接近人类水平的初级物理问题。除了自动解决问题，GPT3.5 还可以总结问题涉及的知识或主题，生成相关的解释，并根据输入问题合成新的物理问题。我们的研究是首次在多种类型和场景下自动解决、解释和生成物理问题，我们获得了令人满意和领先水平的准确性，这表明了在中等教育领域中 LLM 进一步应用的潜力。

Abstract

Our work demonstrates that large language model (LLM) pre-trained on texts can not only solve pure math word problems, but also physics word problems-problems to be solved by calculation and inference based on some prior physical knowledge. We collect and annotate the first physics wor

large language model physics word problems physqa gpt3.5 elementary physics

发现论文，激发创造

低限制机制的物理模拟能力

大型语言模型结合计算物理学和编程能力，能够模拟和预测物理世界，但目前的最先进模型在计算物理问题上仍具有显著的失败模式和改进空间。

Dec, 2023

大型语言模型能否学习超材料的物理学？ChatGPT 的实证研究

在大规模语言模型（LLMs）的研究中，通过对上万份数据进行微调，我们成功构建了一种可以根据元表面几何仅仅通过文本提示就能预测一系列频率范围内的电磁光谱的 LLM 模型。与传统的机器学习方法相比，该模型在所有探索过的数据集大小上均实现了更低的误差，包括深度神经网络。此外，我们还证明了 LLM 通过提供所需的几何形状来解决反问题的能力。因此，我们建议在特定领域的大型数据集上对 LLMs 进行微调，使其能够把握该领域的细微差别，成为研究和分析的有价值工具。

Apr, 2024

挑战性数学问题求解的 GPT-4 实证研究

本文探索使用 GPT-4 解决更复杂的数学问题，并评估了各种使用 GPT-4 的方法，包括作者提出的新的对话式解决框架 - MathChat。针对 MATH 数据集中的困难高中竞赛题进行了评估，结果表明所提出的对话式方法具有优势。

Jun, 2023

在机械工程教育中评估大型语言模型：关于力学概念理解的研究

该研究探究了大型语言模型（LLM）在机械工程领域特别是力学方面解答概念性问题的能力。通过对比三种 LLM（ChatGPT（GPT-3.5），ChatGPT（GPT-4）和 Claude（Claude-2.1））在不同力学主题下的回答表现，发现 GPT-4 在除连续介质力学外的各力学领域问题中表现优异，这表明 GPT 模型在处理符号计算和张量分析方面具有潜在的未来改进空间。研究还发现，通过事先给出解释的提示，LLM 的性能都得到了显著提升，突出了提示工程的重要作用。值得注意的是，GPT-3.5 在涵盖更广泛领域的提示下表现出改进的表现，而 GPT-4 在专注于特定学科的提示下表现出色。最后，GPT-4 在减少输入偏差方面取得了显著进展，从人类猜测偏好的情况来看。该研究揭示了 LLM 作为高水平知识助手在机械工程教学和科学研究中的巨大潜力。

Jan, 2024

评估大型语言模型在高度专业化主题放射肿瘤物理学上的应用

本研究研究使用 LLMS 答题的能力。我们开发了一个包含 100 个肿瘤放射物理学问题的考试，将四个 LLM（ChatGPT（GPT-3.5），ChatGPT（GPT-4），巴德（LaMDA）和 BLOOMZ）与医学物理学家和非专业人员进行了评估。ChatGPT（GPT-4）平均表现优于所有其他 LLM 以及医学物理学家。ChatGPT（GPT-4）在被激发先解释，然后再回答的情况下表现得更好。ChatGPT（GPT-4）展示了出人意料的准确性，表明了一种新颖的推理能力，但存在固有属性以及无法通过大多数投票进一步提高得分。

Apr, 2023

利用大型语言模型进行量子多体物理计算

使用大型语言模型和精心设计的提示语，能够准确地在理论物理研究论文中执行关键计算，探索量子物理学中广泛使用的 Hartree-Fock 方法，并解决了信息提取和计算步骤自动评分等瓶颈问题，为开发自动探索理论假设的算法迈出了重要的一步。

Mar, 2024

大型语言模型是良好的统计学家吗？

LLMs 在处理复杂统计任务方面存在显著改进空间，引入 StatQA 作为新的基准测试以评估 LLMs 在特定统计任务和应用评估能力方面的表现，并突显 LLMs 和人类在错误类型上的差异，表明结合 LLMs 和人类专业知识有助于相互补充优势，进一步探索其合作潜力。

Jun, 2024

SimLM：语言模型能否推断物理系统的参数？

大规模机器学习模型在语言的通用理解、翻译和生成方面的最新进展，给医学、机器人学和科学探索等多个领域带来了影响。然而，这些大语言模型因为其训练所使用的大型语料库的特点，存在无法处理一些特定问题，如高级数学。本文针对大语言模型无法进行物理任务推理的问题进行了研究，并证明了通过从物理模拟的反馈中增强它们的上下文，可以改进它们推断物理系统参数的能力，而无需重新训练。

Dec, 2023

自然语言推理问题中使用语言模型进行知识获取

本文通过在逻辑单词谜题上比较使用 ChatGPT 和 GPT-4 直接解决问题和提取问题文本事实并使用定理证明器解决两种方法，并得出后者是正确的方法来研究了利用大语言模型解决自然语言问题需要一些非平凡的推理。

Apr, 2023

用 GPT 作为数学辅导老师：通过自定义习题生成来教授数学中的文字问题求解器

本文提出一种利用大型语言模型（LLMs）提炼数学单词问题求解能力并将其转化为更小、更高效的学生模型的新方法，结合教育科学原则生成针对性的练习，从而实现个性化学习。实验结果表明，我们的方法在三个不同的基准测试中比 LLMs 更准确，并且使用的参数显著更少。

May, 2023