Apr, 2024

大型语言模型在控制工程中的能力:基于 GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 的基准研究

TL;DR通过使用最新的大语言模型如 GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra,我们探索了解决本科级控制问题的能力。我们引入了一个名为 ControlBench 的基准数据集,以反映传统控制设计的广度、深度和复杂性,并研究了这些大型语言模型在控制工程环境下的问题解决能力。通过人类专家小组的评估,我们揭示了这些大型语言模型在控制工程中的准确性、推理能力和解释能力,分析了每个大型语言模型在传统控制领域的优势和局限性,结果表明 Claude 3 Opus 已成为解决本科控制问题的最先进的大型语言模型。我们的研究是将人工通用智能应用于控制工程更广泛目标的初步尝试。