Aug, 2024

大型语言模型在交通系统工程中的能力基准测试:准确性、一致性与推理行为

TL;DR本研究解决了大型语言模型在交通工程问题中的表现不足,提出了TransportBench基准数据集来评估这些模型的准确性、一致性与推理行为。通过对多个先进模型的分析,我们发现了它们的独特优势与局限性,特别是Claude 3.5 Sonnet在准确性方面表现出色但存在不一致性。这项研究为利用人工通用智能解决复杂交通挑战迈出了激动人心的一步。