大型语言模型在交通系统工程中的能力基准测试：准确性、一致性与推理行为

Aug, 2024

大型语言模型在交通系统工程中的能力基准测试：准确性、一致性与推理行为

Benchmarking the Capabilities of Large Language Models in Transportation System Engineering: Accuracy, Consistency, and Reasoning Behaviors

HTML

PDF

Usman Syed, Ethan Light, Xingang Guo, Huan Zhang, Lianhui Qin...

TL;DR本研究解决了大型语言模型在交通工程问题中的表现不足，提出了TransportBench基准数据集来评估这些模型的准确性、一致性与推理行为。通过对多个先进模型的分析，我们发现了它们的独特优势与局限性，特别是Claude 3.5 Sonnet在准确性方面表现出色但存在不一致性。这项研究为利用人工通用智能解决复杂交通挑战迈出了激动人心的一步。

Abstract

In this paper, we explore the capabilities of state-of-the-art Large Language Models (LLMs) such as GPT-4, GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro, Llama 3, and Llama 3.1 in solving some selected undergraduate-level →

发现论文，激发创造

ChatGPT即将来临：大语言模型是智能交通所需的全部吗？

本文探讨大型语言模型在智能交通系统中的未来应用，介绍了交通数据的不同模态的处理和LLM的运行方式。此外也提供了智能手机崩溃报告自动生成和分析框架作为应用案例。虽然具有潜在优势，但数据隐私、数据质量和模型偏差等挑战需予以考虑。

Mar, 2023

LLM们已经足够先进了吗？一个为大型语言模型提供挑战性问题解决基准的测试

本文介绍了一个新的基准数据集 JEEBench，用于评估 Large Language Models 的问题解决能力，其中包含了 450 个有挑战性的预工程数学、物理和化学问题。本文对 GPT 系列模型进行了评估，发现即使使用 Self-Consistency 和 Chain-of-Thought prompting 等技术，GPT4 的最佳表现仍不到 40％，错误的代数运算和缺乏相关领域知识是造成表现不佳的主要原因。作者希望这个基准数据集能够引导未来使用 Large Language Models 进行问题解决的研究。

May, 2023

交通游戏：对（多模式）大型语言模型的交通知识进行基准评估

我们提出了TransportationGames，这是一个经过精心设计和全面评估的基准测试，用于评估(多模态)大规模语言模型在交通领域中的性能，并发现尽管某些模型在某些任务中表现良好，但整体上仍有很大的改进空间。我们希望TransportationGames的发布能够成为未来研究的基础，加速(多模态)大规模语言模型在交通领域中的实施和应用。

Jan, 2024

智能交通系统中前沿人工智能、基础模型和大语言模型应用的调查

该综述论文探讨了前沿人工智能、大型语言模型和基础模型在智能交通系统领域的转型影响，强调它们在推进交通智能化、优化交通管理和实现智慧城市方面的重要作用。

Jan, 2024

从词语到路线：应用大型语言模型于车辆路径规划

LLMs在车辆路径问题的自然语言任务描述中显示出令人印象深刻的进展，在这项工作中，我们通过构建数据集、评估LLMs的性能以及提出自反思的框架，研究了LLMs解决车辆路径问题的能力和敏感性。

Mar, 2024

大型语言模型在控制工程中的能力: 基于GPT-4、Claude 3 Opus和Gemini 1.0 Ultra的基准研究

通过使用最新的大语言模型如GPT-4、Claude 3 Opus和Gemini 1.0 Ultra，我们探索了解决本科级控制问题的能力。我们引入了一个名为ControlBench的基准数据集，以反映传统控制设计的广度、深度和复杂性，并研究了这些大型语言模型在控制工程环境下的问题解决能力。通过人类专家小组的评估，我们揭示了这些大型语言模型在控制工程中的准确性、推理能力和解释能力，分析了每个大型语言模型在传统控制领域的优势和局限性，结果表明Claude 3 Opus已成为解决本科控制问题的最先进的大型语言模型。我们的研究是将人工通用智能应用于控制工程更广泛目标的初步尝试。

Apr, 2024

交通系统中的大型语言模型：关于预测任务的调查

使用大型语言模型(LLM)对移动性预测问题进行综述，介绍了在交通系统内使用LLM的应用、最新进展以及需要克服的挑战。

May, 2024

LLM-Modulo框架下的强健计划：旅行计划案例研究

大语言模型在旅行规划领域有着显著的实际应用，通过LLM模块化框架的操作，对LLMs的推理能力进行改进，并在基线性能上取得了4.6倍的提升。

May, 2024

利用大型语言模型的连锁思维与提示工程进行交通事故严重性分析与推断

本研究针对交通事故严重性分析中的信息缺失问题，利用三种先进的大型语言模型进行事故严重性推断，提出了一种将连锁思维（CoT）与领域知识相结合的文本生成方法。研究发现，LLaMA3-70B模型在零样本推断中表现最优，同时CoT和提示工程显著提升了逻辑推理能力，为事故严重性分析提供了更全面的视角。

Aug, 2024

超越语言：大型语言模型在交通规划中的评估

本研究解决了大型语言模型在交通规划中的评估问题，特别是针对其空间理解能力和交通领域知识。通过分析GPT-4与Phi-3-mini在实际交通问题中的表现，研究发现GPT-4在地理信息系统和交通特定任务上表现优越，显示出其成为交通规划师强大工具的潜力，同时Phi-3-mini在特定情境下具备一定能力，适用于资源有限的环境。这项工作显著展示了生成型人工智能技术在城市交通规划中的变革潜力。

Sep, 2024