利用大型语言模型进行量子多体物理计算

Mar, 2024

利用大型语言模型进行量子多体物理计算

Quantum Many-Body Physics Calculations with Large Language Models

Haining Pan, Nayantara Mudur, Will Taranto, Maria Tikhanovskaya, Subhashini Venugopalan...

TL;DR使用大型语言模型和精心设计的提示语，能够准确地在理论物理研究论文中执行关键计算，探索量子物理学中广泛使用的 Hartree-Fock 方法，并解决了信息提取和计算步骤自动评分等瓶颈问题，为开发自动探索理论假设的算法迈出了重要的一步。

Abstract

large language models (LLMs) have demonstrated an unprecedented ability to perform complex tasks in multiple domains, including mathematical and scientific reasoning. We demonstrate that with carefully designed prompts, LLMs can accurately carry out key calculations in →

large language models hartree-fock method quantum physics research papers calculation steps

发现论文，激发创造

低限制机制的物理模拟能力

大型语言模型结合计算物理学和编程能力，能够模拟和预测物理世界，但目前的最先进模型在计算物理问题上仍具有显著的失败模式和改进空间。

Dec, 2023

利用大型语言模型解决和解释物理问题：接近人类水平

我们的研究表明，基于预训练文本的大型语言模型（LLM）不仅可以解决纯数学问题，还可以解决物理问题 - 即基于某些先前的物理知识进行计算和推理的问题。我们收集和注释了第一个物理问题数据集 - PhysQA，其中包含 1000 多个初中物理问题（关于运动学、质量和密度、力学、热学、电学）。然后我们使用 OpenAI 的 GPT3.5 生成了这些问题的答案，发现 GPT3.5 能够以零样本学习解决 49.3％的问题，以少样本学习解决 73.2％的问题。这个结果表明，通过使用类似问题及其答案作为提示，LLM 可以解决接近人类水平的初级物理问题。除了自动解决问题，GPT3.5 还可以总结问题涉及的知识或主题，生成相关的解释，并根据输入问题合成新的物理问题。我们的研究是首次在多种类型和场景下自动解决、解释和生成物理问题，我们获得了令人满意和领先水平的准确性，这表明了在中等教育领域中 LLM 进一步应用的潜力。

Sep, 2023

大型语言模型是良好的统计学家吗？

LLMs 在处理复杂统计任务方面存在显著改进空间，引入 StatQA 作为新的基准测试以评估 LLMs 在特定统计任务和应用评估能力方面的表现，并突显 LLMs 和人类在错误类型上的差异，表明结合 LLMs 和人类专业知识有助于相互补充优势，进一步探索其合作潜力。

Jun, 2024

GPT-4 作为研究人员和计算软件之间的接口：提高可用性和可重复性

GPT-4 在计算材料科学中应用可以解决科学软件采用自定义输入语言的挑战以及由于描述模拟方法不足导致的研究结果复现性差的问题，通过生成正确的输入文件和详细的计算任务描述，减少研究者常规任务、加速新用户培训并提高结果可复现性。

Oct, 2023

大型语言模型能否学习超材料的物理学？ChatGPT 的实证研究

在大规模语言模型（LLMs）的研究中，通过对上万份数据进行微调，我们成功构建了一种可以根据元表面几何仅仅通过文本提示就能预测一系列频率范围内的电磁光谱的 LLM 模型。与传统的机器学习方法相比，该模型在所有探索过的数据集大小上均实现了更低的误差，包括深度神经网络。此外，我们还证明了 LLM 通过提供所需的几何形状来解决反问题的能力。因此，我们建议在特定领域的大型数据集上对 LLMs 进行微调，使其能够把握该领域的细微差别，成为研究和分析的有价值工具。

Apr, 2024

评估大型语言模型在高度专业化主题放射肿瘤物理学上的应用

本研究研究使用 LLMS 答题的能力。我们开发了一个包含 100 个肿瘤放射物理学问题的考试，将四个 LLM（ChatGPT（GPT-3.5），ChatGPT（GPT-4），巴德（LaMDA）和 BLOOMZ）与医学物理学家和非专业人员进行了评估。ChatGPT（GPT-4）平均表现优于所有其他 LLM 以及医学物理学家。ChatGPT（GPT-4）在被激发先解释，然后再回答的情况下表现得更好。ChatGPT（GPT-4）展示了出人意料的准确性，表明了一种新颖的推理能力，但存在固有属性以及无法通过大多数投票进一步提高得分。

Apr, 2023

背景问题：为科学应用数据高效扩充的大型语言模型

本文研究了大型语言模型（如 GPT-4）存在的挑战，特别是在回答复杂问题时容易出现错觉、逻辑错误和错误结论的问题。语言模型能以一种连贯且语义严谨的方式呈现错误答案的能力进一步增加了发现事实不准确性的困难。这个问题在需要专业知识的领域尤为明显。我们的工作深入探讨了这些挑战，旨在增强对此类错误的理解和缓解，从而提高科学和其他专业领域中 LLMs 的准确性和可靠性。我们的研究结果揭示了上下文相关性与答案质量之间的非线性关系。此外，我们证明了在正确校准的情况下，可能实现自动评分 —— 这一发现表明，至少在某种程度上，LLMs 可以用于自我检验其性能质量。最后，我们描述了一个实验平台，可以被视为对本文描述的技术的概念验证。

Dec, 2023

大规模语言模型的准确计算的代码独白

通过创新的状态提示设计，本论文介绍了一种改进的方法，利用含有代码独白的数据集来提高智能辅导系统的计算准确性和可靠性。

Sep, 2023

陷入数理泥潭，远离 AGI 峰会：通过本体引导的扰动评估 LLM 的数学能力

该研究通过扰动问题和生成数据集，评估大型语言模型在数学推理任务中的能力，结果表明现有模型在扰动问题上性能显著下降，缺乏深度推理能力。

Jan, 2024

LLM 能掌握数学吗？研究大型语言模型在数学 Stack Exchange 上

本研究通过分析 GPT-4 在回答数学问题中的表现，探讨了大型语言模型在复杂的数学问题解决中的局限性和不足，为未来人工智能驱动的数学推理的研究和进展奠定了基础。

Mar, 2024