Jan, 2024

在机械工程教育中评估大型语言模型:关于力学概念理解的研究

TL;DR该研究探究了大型语言模型(LLM)在机械工程领域特别是力学方面解答概念性问题的能力。通过对比三种 LLM(ChatGPT(GPT-3.5),ChatGPT(GPT-4)和 Claude(Claude-2.1))在不同力学主题下的回答表现,发现 GPT-4 在除连续介质力学外的各力学领域问题中表现优异,这表明 GPT 模型在处理符号计算和张量分析方面具有潜在的未来改进空间。研究还发现,通过事先给出解释的提示,LLM 的性能都得到了显著提升,突出了提示工程的重要作用。值得注意的是,GPT-3.5 在涵盖更广泛领域的提示下表现出改进的表现,而 GPT-4 在专注于特定学科的提示下表现出色。最后,GPT-4 在减少输入偏差方面取得了显著进展,从人类猜测偏好的情况来看。该研究揭示了 LLM 作为高水平知识助手在机械工程教学和科学研究中的巨大潜力。