在机械工程教育中评估大型语言模型：关于力学概念理解的研究

Jan, 2024

在机械工程教育中评估大型语言模型：关于力学概念理解的研究

Assessing Large Language Models in Mechanical Engineering Education: A Study on Mechanics-Focused Conceptual Understanding

PDF

Jie Tian, Jixin Hou, Zihao Wu, Peng Shu, Zhengliang Liu...

TL;DR该研究探究了大型语言模型（LLM）在机械工程领域特别是力学方面解答概念性问题的能力。通过对比三种 LLM（ChatGPT（GPT-3.5），ChatGPT（GPT-4）和 Claude（Claude-2.1））在不同力学主题下的回答表现，发现 GPT-4 在除连续介质力学外的各力学领域问题中表现优异，这表明 GPT 模型在处理符号计算和张量分析方面具有潜在的未来改进空间。研究还发现，通过事先给出解释的提示，LLM 的性能都得到了显著提升，突出了提示工程的重要作用。值得注意的是，GPT-3.5 在涵盖更广泛领域的提示下表现出改进的表现，而 GPT-4 在专注于特定学科的提示下表现出色。最后，GPT-4 在减少输入偏差方面取得了显著进展，从人类猜测偏好的情况来看。该研究揭示了 LLM 作为高水平知识助手在机械工程教学和科学研究中的巨大潜力。

Abstract

This study is a pioneering endeavor to investigate the capabilities of Large Language Models (LLMs) in addressing conceptual questions within the domain of mechanical engineering with a focus on mechanics. Our ex

large language models mechanical engineering mechanics gpt-4 prompt engineering

发现论文，激发创造

MechGPT：连接跨尺度、学科和模态知识的基于语言的力学和材料建模战略

通过精细调整的大型语言模型 (LLM)，本研究探索了多尺度材料失效知识的提取、各种语言任务执行、假设生成和跨领域知识联系的能力。同时通过本体知识图结构，该模型能提供解释性洞察、新研究问题的框架，以及知识的可视化呈现，并且可用于检索增强生成。

Oct, 2023

基于 GPT 的模型遇上仿真：如何高效地运用大规模预训练语言模型于仿真任务中

本文是第一篇关于利用大规模预训练语言模型（LLMs）进行科学模拟的研究，聚焦于四个建模和模拟任务，分别评估 LLMs 的预期优势和局限性，并为模型构建者提供实用指南，包括解释概念模型结构、总结模拟输出、通过文本传达模拟可视化洞见以及解释模拟错误并提供解决方案。

Jun, 2023

地质技术工作流的未来保障：通过大型语言模型加速问题解决

大型语言模型在岩土工程中的创新应用以及对数据处理和决策的提升潜力进行了探讨，同时指出了实施大型语言模型的挑战和专家监督的必要性。

Dec, 2023

大语言模型在工业工程中的应用研究：ChatGPT 在油气问题上的表现案例

本文讨论了大型语言模型在解决复杂问题，尤其是石油和天然气工程领域的应用，介绍了目前的 ChatGPT 方法在实际问题中的局限性，并讨论了大型语言模型的优势和适用的领域。

Apr, 2023

ChatGPT：从大型语言模型向大型知识模型发展

通过使用基于 transformer 的生成神经网络架构的 ChatGPT 和其他大型语言模型（LLM）在自然语言处理和图像合成等领域的惊人成功，许多研究人员对过程系统工程（PSE）中的潜在机会感到兴奋。然而，尽管它们在某些任务中非常有用，如撰写文件的初稿、代码编写辅助、文本摘要等，但它们在高度科学领域的成功受限于缺乏深度领域知识而无法推理、规划或解释。在这篇论文中，我们讨论了在化学工程领域开发这种系统面临的挑战和机遇。

May, 2024

基于大型语言模型的教育调查反馈分析

本研究评估了大型语言模型（LLMs）GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力，并应用自然语言处理的方法，通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标，从而展示了 LLMs 在洞察力提取方面的巨大潜力。

Sep, 2023

大型语言模型在初级编程教育中的应用：ChatGPT 的性能和对评估的影响

该论文研究了大型语言模型（LLMs）ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现，并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务，使用完整任务描述作为 LLMs 的输入，通过 CodingBat 的单元测试评估生成的回复。此外，还分析了文本解释和程序代码的普遍可用性。结果显示得分高，正确响应率为 94.4％至 95.8％，同时文本解释和程序代码的可用性可靠，从而为将 LLMs 纳入编程教育和评估中打开了新的途径。

Aug, 2023

从 “让我们谷歌” 到 “让我们 ChatGPT”: 学生和教师对 LLMs 在本科工程教育中的影响的观点

本文通过在印度的本科工程大学进行调查和访谈，揭示了 ChatGPT（一种流行的 LLM）在学术使用中的现状、所带来的好处、威胁、挑战以及增进学生和教师对 LLMs 采用的建议，进一步讨论了 LLMs 在本科工程教育及其他领域的实际意义。

Sep, 2023

基于大型语言模型的文档级机器翻译

本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用，通过评估话语建模的能力，比较它与商业翻译系统和高级文档级机器翻译方法的性能，发现 Chat-GPT 在人类评估方面表现优异，同时揭示了话语建模的挑战和机遇。

Apr, 2023

ChatGPT 备选方案：大型语言模型调查

通过对多个 LLM 模型的研究，本文不仅提供了全面的概述，还明确了现有挑战，并指出了未来的研究方向。该综述提供了关于生成型人工智能的当前状态的全面观点，为进一步的探索、增强和创新提供了启示。

Mar, 2024