低限制机制的物理模拟能力

MMDec, 2023

Physics simulation capabilities of LLMs

Mohamad Ali-Dib, Kristen Menou

TL;DR大型语言模型结合计算物理学和编程能力，能够模拟和预测物理世界，但目前的最先进模型在计算物理问题上仍具有显著的失败模式和改进空间。

Abstract

[Abridged abstract] large language models (LLMs) can solve some undergraduate-level to graduate-level physics textbook problems and are proficient at coding. Combining these two capabilities could one day enable AI systems to simulate and predict the physical world. We present an evalu

large language models computational physics coding capabilities physics simulation autonomy

发现论文，激发创造

利用大型语言模型解决和解释物理问题：接近人类水平

我们的研究表明，基于预训练文本的大型语言模型（LLM）不仅可以解决纯数学问题，还可以解决物理问题 - 即基于某些先前的物理知识进行计算和推理的问题。我们收集和注释了第一个物理问题数据集 - PhysQA，其中包含 1000 多个初中物理问题（关于运动学、质量和密度、力学、热学、电学）。然后我们使用 OpenAI 的 GPT3.5 生成了这些问题的答案，发现 GPT3.5 能够以零样本学习解决 49.3％的问题，以少样本学习解决 73.2％的问题。这个结果表明，通过使用类似问题及其答案作为提示，LLM 可以解决接近人类水平的初级物理问题。除了自动解决问题，GPT3.5 还可以总结问题涉及的知识或主题，生成相关的解释，并根据输入问题合成新的物理问题。我们的研究是首次在多种类型和场景下自动解决、解释和生成物理问题，我们获得了令人满意和领先水平的准确性，这表明了在中等教育领域中 LLM 进一步应用的潜力。

Sep, 2023

SimLM：语言模型能否推断物理系统的参数？

大规模机器学习模型在语言的通用理解、翻译和生成方面的最新进展，给医学、机器人学和科学探索等多个领域带来了影响。然而，这些大语言模型因为其训练所使用的大型语料库的特点，存在无法处理一些特定问题，如高级数学。本文针对大语言模型无法进行物理任务推理的问题进行了研究，并证明了通过从物理模拟的反馈中增强它们的上下文，可以改进它们推断物理系统参数的能力，而无需重新训练。

Dec, 2023

利用大型语言模型进行量子多体物理计算

使用大型语言模型和精心设计的提示语，能够准确地在理论物理研究论文中执行关键计算，探索量子物理学中广泛使用的 Hartree-Fock 方法，并解决了信息提取和计算步骤自动评分等瓶颈问题，为开发自动探索理论假设的算法迈出了重要的一步。

Mar, 2024

LLM 和仿真作为双层优化器：推进物理科学发现的新范式

大语言模型近来在科学发现中引起了重要关注，它们拥有丰富的知识和先进的推理能力。本研究提出了一种新方法，通过结合模拟和语言来增强 LLMs 的抽象推理能力，并在构成定律探索和分子设计中展现了不同于传统科学预期的新颖解决方案。

May, 2024

物理集成迭代建模的领域专用反应：燃气涡轮气道分析中 LLM 代理的案例研究

本研究探讨了在能源和电力工程领域中使用大型语言模型（LLMs）与可调用工具进行研究，并重点关注燃气轮机的燃气通道分析。我们开发了双代理工具调用过程，以整合专家知识、预定义工具和 LLM 推理。我们评估了包括 LLama3、Qwen1.5 和 GPT 在内的各种 LLMs。较小的模型在工具使用和参数提取方面存在困难，而较大的模型展示了较好的能力。所有模型都面临着复杂、多组分问题的挑战。基于测试结果，我们推测具有近 1000 亿参数的 LLMs 可以通过精调和先进的提示设计满足专业场景需求。持续的发展可能提高其准确性和效果，为更强大的基于人工智能的解决方案铺平道路。

Jun, 2024

利用先前未见工具使大型语言模型能够执行电力系统模拟：以 Daline 为例

通过将实验技术与大语言模型（LLM）相结合，科学研究的转型正在改变研究领域，提供了超越专业问题解决的人工智能能力，成为人类科学家的研究助手。该研究提出了一个模块化框架，将电力系统和 LLM 领域的专业知识集成，以解决 LLMs 在电力系统仿真方面面临的挑战，从而提高 LLMs 在先前未知工具上进行电力系统仿真的能力。通过在 Daline 中使用 34 个仿真任务进行验证，这个框架将 GPT-4o 的仿真编码准确率从 0% 提高到 96.07%，同时超过了 ChatGPT-4o 网络界面的 33.8% 准确率（已上传整个知识库）。这些结果突显了 LLMs 作为电力系统研究助手的潜力。

Jun, 2024

评估大型语言模型在高度专业化主题放射肿瘤物理学上的应用

本研究研究使用 LLMS 答题的能力。我们开发了一个包含 100 个肿瘤放射物理学问题的考试，将四个 LLM（ChatGPT（GPT-3.5），ChatGPT（GPT-4），巴德（LaMDA）和 BLOOMZ）与医学物理学家和非专业人员进行了评估。ChatGPT（GPT-4）平均表现优于所有其他 LLM 以及医学物理学家。ChatGPT（GPT-4）在被激发先解释，然后再回答的情况下表现得更好。ChatGPT（GPT-4）展示了出人意料的准确性，表明了一种新颖的推理能力，但存在固有属性以及无法通过大多数投票进一步提高得分。

Apr, 2023

大型语言模型能否学习超材料的物理学？ChatGPT 的实证研究

在大规模语言模型（LLMs）的研究中，通过对上万份数据进行微调，我们成功构建了一种可以根据元表面几何仅仅通过文本提示就能预测一系列频率范围内的电磁光谱的 LLM 模型。与传统的机器学习方法相比，该模型在所有探索过的数据集大小上均实现了更低的误差，包括深度神经网络。此外，我们还证明了 LLM 通过提供所需的几何形状来解决反问题的能力。因此，我们建议在特定领域的大型数据集上对 LLMs 进行微调，使其能够把握该领域的细微差别，成为研究和分析的有价值工具。

Apr, 2024

语言模型能够模拟求解器吗？使用 LLMs 进行逻辑代码仿真

基于 Transformer 的大型语言模型（LLMs）在解决逻辑问题方面展现了显著的潜力，该研究调查了一种新颖的方向，即逻辑代码模拟，并引入了基于 LLMs 的代码模拟技术 DCoL，该技术相比其他 LLM 提示策略表现出最先进的性能，通过 GPT-4-Turbo 实现了精度提高 7.06%。

Mar, 2024

基于大规模语言模型的符号回归个性化物理本科学生学习工具

通过引入个性化学习工具，建立在大型语言模型上，可以在学生完成交错的本科物理课程作业时为他们提供即时个性化关注，以提高其记忆和问题解决能力。我们的工具利用维度分析方法，增强学生对复杂现象的定性思维和问题解决能力，结合符号回归的大型语言模型与维度分析，通过提示工程为学生提供了一种独特的视角，以理解物理变量之间的关系，从而培养更广泛、更灵活的物理和数学原理的理解能力，作为传统本科物理教育的补充，该教育依赖于解释和应用特定背景下的已建立的方程式。我们在费恩曼物理学讲座中测试了我们的个性化学习工具，对方程式中的物理变量关系进行了正确的识别，强调其作为本科物理学生补充个性化学习工具的价值。

Jun, 2024