GPT-4 作为研究人员和计算软件之间的接口:提高可用性和可重复性
近年来,在自然语言处理方面取得突破性进展的大型语言模型(LLM)的出现,展示了其在包括理解、生成和翻译自然语言甚至超越语言处理的任务方面的卓越能力。本文报告中,我们深入研究了 LLM 在科学发现环境中的性能,重点关注 GPT-4,这一最先进的语言模型。我们的调查涉及药物发现、生物学、计算化学(密度泛函理论(DFT)和分子动力学(MD))、材料设计和偏微分方程(PDE)等多个科学领域。评估 GPT-4 在科学任务上的表现对于揭示其在各个研究领域中的潜力、验证其特定领域的专长、加速科学进展、优化资源分配、指导未来模型发展以及促进跨学科研究至关重要。我们的探索方法主要包括专家驱动的案例评估,提供对模型理解复杂科学概念和关系的定性洞见,以及偶尔的基准测试,定量评估模型解决明确定义的特定领域问题的能力。我们的初步探索表明,GPT-4 在各种科学应用中展示出有希望的潜力,显示出处理复杂问题解决和知识整合任务的能力。总体而言,我们评估了 GPT-4 的知识库、科学理解、科学数值计算能力以及各种科学预测能力。
Nov, 2023
本文是第一篇关于利用大规模预训练语言模型(LLMs)进行科学模拟的研究,聚焦于四个建模和模拟任务,分别评估 LLMs 的预期优势和局限性,并为模型构建者提供实用指南,包括解释概念模型结构、总结模拟输出、通过文本传达模拟可视化洞见以及解释模拟错误并提供解决方案。
Jun, 2023
本研究旨在考察大型语言模型(如 GPT-4)在新数据上执行经验软件工程研究的复制能力,发现 GPT-4 能够提供正确的假设,但难以生成反映软件工程数据的常规知识的假设,同时在生成的代码中存在实现层面错误,显示出对软件工程知识的欠缺。这些发现对于利用 LLMs 进行软件工程研究以及软件团队中的数据科学家具有重要意义。
Oct, 2023
使用 GPT-4 模型创建了一个自动化平台,通过对科学论文的全文进行评论以评估 GPT-4 生成的反馈质量。 在两项大规模研究中,我们将 GPT-4 生成的反馈与人工同行评审的反馈进行了定量比较,并通过 308 名研究人员的用户研究了解了他们对 GPT-4 生成的反馈的感知。 总体而言,超过半数的用户(57.4%)认为 GPT-4 生成的反馈有所帮助,82.4% 的用户认为它比至少一些人工审稿人的反馈更有益。
Oct, 2023
本文针对大语言模型在化学领域能力的未知,建立起一个包含 8 个化学实践任务的全面基准,运用 GPT-4、GPT-3.5 和 Davinci-003 三种 GPT 模型以零样本和少样本的情境下进行测试,发现 GPT-4 相较于其他两种模型表现更佳,而 GPT 模型在需要精确理解分子 SMILES 表示的任务中较为欠缺,而在文本相关的说明任务方面表现出较强的能力。
May, 2023
LLMs like GPT-4 show exceptional cross-domain understanding and reasoning for embedded systems development, producing fully correct programs, functional interfaces, register-level drivers, code for LoRa communication, and context-specific power optimizations, resulting in improved productivity and success rate using an AI workflow.
Jul, 2023
该研究探索了使用 GPT-4 Turbo 生成学生编程提交的反馈,研究结果显示相比 GPT-3.5,GPT-4 Turbo 在输出质量上有显著的改进,可以更准确地识别学生程序输出中的错误,并能为学生提供结构化和一致的反馈。此研究还增加了我们对大型语言模型在电子评估系统、教学场景和指导学生使用基于 GPT-4 的应用中潜力和限制的理解。
Mar, 2024
本文介绍了 GPT-4,一种大规模、多模态模型,可接受图像输入和文本输入,并产生文本输出。通过预先训练,优化方法和改进后的对齐过程,GPT-4 表现出人类水平的性能。
Mar, 2023
该研究探讨了大型语言模型(LLM),特别是 GPT-4,在课堂对话分析中的应用,这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点,调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析,包括数学和语文课堂的对话,该研究对人工编码的对话进行了评估,并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出,以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明,使用 GPT-4 能够显著节省时间,并且模型与人工编码者之间具有高度的一致性,尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。
Feb, 2024
GPT-4 在生成编程代码方面表现优异,优于其他大型语言模型,具备在不同编程语言之间翻译和学习的强大能力,同时具备与人类程序员相当的代码生成效率,表明其在编程代码生成和软件开发中具备可靠的助手潜力。
Mar, 2024