利用大型语言模型进行量子多体物理计算
我们的研究表明,基于预训练文本的大型语言模型(LLM)不仅可以解决纯数学问题,还可以解决物理问题 - 即基于某些先前的物理知识进行计算和推理的问题。我们收集和注释了第一个物理问题数据集 - PhysQA,其中包含 1000 多个初中物理问题(关于运动学、质量和密度、力学、热学、电学)。然后我们使用 OpenAI 的 GPT3.5 生成了这些问题的答案,发现 GPT3.5 能够以零样本学习解决 49.3%的问题,以少样本学习解决 73.2%的问题。这个结果表明,通过使用类似问题及其答案作为提示,LLM 可以解决接近人类水平的初级物理问题。除了自动解决问题,GPT3.5 还可以总结问题涉及的知识或主题,生成相关的解释,并根据输入问题合成新的物理问题。我们的研究是首次在多种类型和场景下自动解决、解释和生成物理问题,我们获得了令人满意和领先水平的准确性,这表明了在中等教育领域中 LLM 进一步应用的潜力。
Sep, 2023
LLMs 在处理复杂统计任务方面存在显著改进空间,引入 StatQA 作为新的基准测试以评估 LLMs 在特定统计任务和应用评估能力方面的表现,并突显 LLMs 和人类在错误类型上的差异,表明结合 LLMs 和人类专业知识有助于相互补充优势,进一步探索其合作潜力。
Jun, 2024
GPT-4 在计算材料科学中应用可以解决科学软件采用自定义输入语言的挑战以及由于描述模拟方法不足导致的研究结果复现性差的问题,通过生成正确的输入文件和详细的计算任务描述,减少研究者常规任务、加速新用户培训并提高结果可复现性。
Oct, 2023
在大规模语言模型(LLMs)的研究中,通过对上万份数据进行微调,我们成功构建了一种可以根据元表面几何仅仅通过文本提示就能预测一系列频率范围内的电磁光谱的 LLM 模型。与传统的机器学习方法相比,该模型在所有探索过的数据集大小上均实现了更低的误差,包括深度神经网络。此外,我们还证明了 LLM 通过提供所需的几何形状来解决反问题的能力。因此,我们建议在特定领域的大型数据集上对 LLMs 进行微调,使其能够把握该领域的细微差别,成为研究和分析的有价值工具。
Apr, 2024
本研究研究使用 LLMS 答题的能力。我们开发了一个包含 100 个肿瘤放射物理学问题的考试,将四个 LLM(ChatGPT(GPT-3.5),ChatGPT(GPT-4),巴德(LaMDA)和 BLOOMZ)与医学物理学家和非专业人员进行了评估。ChatGPT(GPT-4)平均表现优于所有其他 LLM 以及医学物理学家。ChatGPT(GPT-4)在被激发先解释,然后再回答的情况下表现得更好。ChatGPT(GPT-4)展示了出人意料的准确性,表明了一种新颖的推理能力,但存在固有属性以及无法通过大多数投票进一步提高得分。
Apr, 2023
本文研究了大型语言模型(如 GPT-4)存在的挑战,特别是在回答复杂问题时容易出现错觉、逻辑错误和错误结论的问题。语言模型能以一种连贯且语义严谨的方式呈现错误答案的能力进一步增加了发现事实不准确性的困难。这个问题在需要专业知识的领域尤为明显。我们的工作深入探讨了这些挑战,旨在增强对此类错误的理解和缓解,从而提高科学和其他专业领域中 LLMs 的准确性和可靠性。我们的研究结果揭示了上下文相关性与答案质量之间的非线性关系。此外,我们证明了在正确校准的情况下,可能实现自动评分 —— 这一发现表明,至少在某种程度上,LLMs 可以用于自我检验其性能质量。最后,我们描述了一个实验平台,可以被视为对本文描述的技术的概念验证。
Dec, 2023
该研究通过扰动问题和生成数据集,评估大型语言模型在数学推理任务中的能力,结果表明现有模型在扰动问题上性能显著下降,缺乏深度推理能力。
Jan, 2024
本研究通过分析 GPT-4 在回答数学问题中的表现,探讨了大型语言模型在复杂的数学问题解决中的局限性和不足,为未来人工智能驱动的数学推理的研究和进展奠定了基础。
Mar, 2024