大型语言模型对科学发现的影响：使用 GPT-4 的初步研究

Nov, 2023

大型语言模型对科学发现的影响：使用 GPT-4 的初步研究

The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4

Microsoft Research AI4Science, Microsoft Azure Quantum

TL;DR近年来，在自然语言处理方面取得突破性进展的大型语言模型（LLM）的出现，展示了其在包括理解、生成和翻译自然语言甚至超越语言处理的任务方面的卓越能力。本文报告中，我们深入研究了 LLM 在科学发现环境中的性能，重点关注 GPT-4，这一最先进的语言模型。我们的调查涉及药物发现、生物学、计算化学（密度泛函理论（DFT）和分子动力学（MD））、材料设计和偏微分方程（PDE）等多个科学领域。评估 GPT-4 在科学任务上的表现对于揭示其在各个研究领域中的潜力、验证其特定领域的专长、加速科学进展、优化资源分配、指导未来模型发展以及促进跨学科研究至关重要。我们的探索方法主要包括专家驱动的案例评估，提供对模型理解复杂科学概念和关系的定性洞见，以及偶尔的基准测试，定量评估模型解决明确定义的特定领域问题的能力。我们的初步探索表明，GPT-4 在各种科学应用中展示出有希望的潜力，显示出处理复杂问题解决和知识整合任务的能力。总体而言，我们评估了 GPT-4 的知识库、科学理解、科学数值计算能力以及各种科学预测能力。

Abstract

In recent years, groundbreaking advancements in natural language processing have culminated in the emergence of powerful large language models (LLMs), which have showcased remarkable capabilities across a vast ar

natural language processing large language models scientific discovery gpt-4 scientific applications

发现论文，激发创造

利用大型语言模型扩展基于证据的教学设计专业知识

本论文探讨了在教学设计中利用大型语言模型（LLMs），尤其是 GPT-4 的全面应用。我们关注以缩小理论教育研究和实际实施之间的差距为目的，通过扩大基于证据的教学设计专业知识的规模。本文讨论了 AI 驱动内容生成的益处和局限性，强调人为监督保证教育材料质量的必要性。我们通过两个详细的案例研究阐释了这一工作，其中应用 GPT-4 创建了复杂的高阶评估和不同课程的主动学习组成部分。根据我们的经验，我们提供有效使用 LLM 的最佳实践，如利用模板，微调，处理意外输出，实施 LLM 链，引用参考文献，评估输出，创建量表，评分和生成干扰项。我们还分享了我们对未来的推荐系统的愿景，该推荐系统可以根据用户的独特教育背景，定制 GPT-4 从教育研究中提取教学设计原则，并创建个性化的、具备证据支持的策略。本研究有助于理解和最大限度地利用 AI 驱动的语言模型潜力，以增强教育成果。

May, 2023

GPT-4 作为研究人员和计算软件之间的接口：提高可用性和可重复性

GPT-4 在计算材料科学中应用可以解决科学软件采用自定义输入语言的挑战以及由于描述模拟方法不足导致的研究结果复现性差的问题，通过生成正确的输入文件和详细的计算任务描述，减少研究者常规任务、加速新用户培训并提高结果可复现性。

Oct, 2023

ChatGPT/GPT-4 研究综述及对大型语言模型未来的展望

本文对 ChatGPT 和 GPT-4 进行了综合调查，分析了其在各领域的潜在应用，发现 ChatGPT/GPT-4 主要应用于自然语言处理，并在教育、历史、数学、医学和物理等领域具有潜力。同时也提出了伦理问题和未来发展方向。

Apr, 2023

基于 GPT 的模型遇上仿真：如何高效地运用大规模预训练语言模型于仿真任务中

本文是第一篇关于利用大规模预训练语言模型（LLMs）进行科学模拟的研究，聚焦于四个建模和模拟任务，分别评估 LLMs 的预期优势和局限性，并为模型构建者提供实用指南，包括解释概念模型结构、总结模拟输出、通过文本传达模拟可视化洞见以及解释模拟错误并提供解决方案。

Jun, 2023

评估大型语言模型在课堂对话分析中的应用

该研究探讨了大型语言模型（LLM），特别是 GPT-4，在课堂对话分析中的应用，这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点，调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析，包括数学和语文课堂的对话，该研究对人工编码的对话进行了评估，并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出，以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明，使用 GPT-4 能够显著节省时间，并且模型与人工编码者之间具有高度的一致性，尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。

Feb, 2024

GPT-4 在医疗挑战问题上的能力

通过对 USMLE 和 MultiMedQA 基准数据集的全面评估，我们发现不需要专门的提示造型来激发 GPT-4，它的表现超过了 USMLE 的合格分数约 20 分，并表现优于早期的通用模型（GPT-3.5）以及专门针对医学知识进行细化调整的模型（Med-PaLM，Flan-PaLM540B 的提示调整版本）。

Mar, 2023

评估领先的大型语言模型在推理生物学问题中的潜力

该研究评估了领先的大型语言模型（LLMs），包括 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova 对概念生物学问题的回答能力。结果表明，GPT-4 在逻辑推理方面表现出色，并具备数据分析、假设生成和知识整合等能力，从而有望在生物学研究中发挥作用，但还需要进一步的发展和验证。

Nov, 2023

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023

背景问题：为科学应用数据高效扩充的大型语言模型

本文研究了大型语言模型（如 GPT-4）存在的挑战，特别是在回答复杂问题时容易出现错觉、逻辑错误和错误结论的问题。语言模型能以一种连贯且语义严谨的方式呈现错误答案的能力进一步增加了发现事实不准确性的困难。这个问题在需要专业知识的领域尤为明显。我们的工作深入探讨了这些挑战，旨在增强对此类错误的理解和缓解，从而提高科学和其他专业领域中 LLMs 的准确性和可靠性。我们的研究结果揭示了上下文相关性与答案质量之间的非线性关系。此外，我们证明了在正确校准的情况下，可能实现自动评分 —— 这一发现表明，至少在某种程度上，LLMs 可以用于自我检验其性能质量。最后，我们描述了一个实验平台，可以被视为对本文描述的技术的概念验证。

Dec, 2023

数据科学中的 GPT：模型选择的实践探索

利用大型语言模型 (LLMs) 管理结构化数据并增强数据科学流程的兴趣日益增长。尽管具有潜在的好处，但其整合引发了对可靠性和决策方法的重要问题，强调了模型选择过程中包括数据性质、问题类型、性能指标、计算资源、可解释性与准确性、对数据的假设以及伦理考虑等多种因素的重要性。我们的目标是阐明和表达 GPT-4 模型选择推荐背后的因素和假设。我们采用变异性模型描述这些因素，并使用玩具数据集评估模型和已确定的启发式方法的实施。通过将这些结果与其他平台的启发式方法进行对比，我们的目的是确定 GPT-4 方法的有效性和独特性。本研究致力于推进我们对人工智能决策过程的理解，特别是在数据科学中的模型选择领域。我们的努力旨在创建更加透明和可理解的人工智能系统，为数据科学实践贡献更负责任和高效的方法。

Nov, 2023