大型语言模型在控制工程中的能力：基于 GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 的基准研究

Apr, 2024

大型语言模型在控制工程中的能力：基于 GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 的基准研究

Capabilities of Large Language Models in Control Engineering: A Benchmark Study on GPT-4, Claude 3 Opus, and Gemini 1.0 Ultra

PDF

Darioush Kevian, Usman Syed, Xingang Guo, Aaron Havens, Geir Dullerud...

TL;DR通过使用最新的大语言模型如 GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra，我们探索了解决本科级控制问题的能力。我们引入了一个名为 ControlBench 的基准数据集，以反映传统控制设计的广度、深度和复杂性，并研究了这些大型语言模型在控制工程环境下的问题解决能力。通过人类专家小组的评估，我们揭示了这些大型语言模型在控制工程中的准确性、推理能力和解释能力，分析了每个大型语言模型在传统控制领域的优势和局限性，结果表明 Claude 3 Opus 已成为解决本科控制问题的最先进的大型语言模型。我们的研究是将人工通用智能应用于控制工程更广泛目标的初步尝试。

Abstract

In this paper, we explore the capabilities of state-of-the-art large language models (LLMs) such as GPT-4, Claude 3 Opus, and Gemini 1.0 Ultra in solving undergraduate-level control problems. Controls provides an interesting case study for →

large language models control problems controlbench llm reasoning classical control

发现论文，激发创造

LLM4PLC：工控系统中基于大型语言模型的可验证 PLC 编程

提出 LLM4PLC 的用户引导迭代流程，通过用户反馈和外部验证工具来改善大型语言模型（LLM）生成的代码的可验证性，提高成功生成的比例并提高代码质量。

Jan, 2024

大型语言模型的适应性逻辑控制

通过引入适应性框架 Ctrl-G，该研究提出了一种可实现对大型语言模型的可控生成的方法，并将其应用于交互文本编辑和有限状态自动机表示的逻辑约束，结果显示 Ctrl-G 在人类评估中相比于 GPT4 以及 GPT3.5 取得了 30% 以上的满意率提升，并在标准基准测试中超越了中型语言模型。此外，该研究还进行了 Grade School Math 基准测试作为概念验证，展示了 Ctrl-G 在辅助大型语言模型推理方面的潜力。

Jun, 2024

ChatGPT 用于 PLC/DCS 控制逻辑生成

本研究是一项探索性研究，通过创建 100 个 LLM 提示，测试了控制逻辑生成，旨在提高控制工程师的生产力。

May, 2023

探索和表征用于嵌入式系统开发和调试的大型语言模型

LLMs like GPT-4 show exceptional cross-domain understanding and reasoning for embedded systems development, producing fully correct programs, functional interfaces, register-level drivers, code for LoRa communication, and context-specific power optimizations, resulting in improved productivity and success rate using an AI workflow.

Jul, 2023

在机械工程教育中评估大型语言模型：关于力学概念理解的研究

该研究探究了大型语言模型（LLM）在机械工程领域特别是力学方面解答概念性问题的能力。通过对比三种 LLM（ChatGPT（GPT-3.5），ChatGPT（GPT-4）和 Claude（Claude-2.1））在不同力学主题下的回答表现，发现 GPT-4 在除连续介质力学外的各力学领域问题中表现优异，这表明 GPT 模型在处理符号计算和张量分析方面具有潜在的未来改进空间。研究还发现，通过事先给出解释的提示，LLM 的性能都得到了显著提升，突出了提示工程的重要作用。值得注意的是，GPT-3.5 在涵盖更广泛领域的提示下表现出改进的表现，而 GPT-4 在专注于特定学科的提示下表现出色。最后，GPT-4 在减少输入偏差方面取得了显著进展，从人类猜测偏好的情况来看。该研究揭示了 LLM 作为高水平知识助手在机械工程教学和科学研究中的巨大潜力。

Jan, 2024

预训练大型语言模型的网络运维能力的实证研究

通过系统评估选择的大型语言模型（LLMs）在网络运维（NetOps）领域的能力、优势和局限性，本研究发现只有 GPT-4 能够达到与人类通过网络运维认证考试的高精度等级。

Sep, 2023

大型语言模型的多目标语言控制

通过细调用于现有数据的多控制调优方法，本文提出一种能够精确控制大语言模型输出的多个语言复杂性的方法。实验证明该方法不仅显著改善了大语言模型的多复杂性可控性，还保持甚至提升了响应质量。

Jun, 2024

评估大型语言模型在 GMAT 上的表现：对商业教育未来的影响

该研究介绍了一项评估七种主要大型语言模型（LLMs）在商业教育领域的性能的基准测试，同时研究还证明了大多数 LLMs 在 GMAT 考试中的出色表现，特别是 GPT-4 Turbo 超越了研究生和商学院的平均分数。此研究确定了人工智能在教育领域的潜力，并强调了在发展和应用人工智能时的一些挑战和需求。

Jan, 2024

ControlLLM: 通过在图上搜索来增强语言模型的工具

我们介绍了 ControlLLM，这是一个新颖的框架，使得大型语言模型能够利用多模态工具来解决复杂的现实世界任务，通过使用任务分解器、Thoughts-on-Graph（ToG）范式和具备丰富工具箱的执行引擎，在图像、音频和视频处理等多样任务中展示出了超群的准确性、效率和多功能性。

Oct, 2023

计算机科学学位项目中大型语言模型的表现

这篇论文在应用科学大专的计算机科学学士学位课程中研究了不同大型语言模型的表现和效果，发现当前的大型语言模型在不同计算机科学领域表现出色，但由于数学计算方面的限制，即使是 GPT-4.0 也无法通过该课程。

Jul, 2023