Jan, 2024

交通游戏:对(多模式)大型语言模型的交通知识进行基准评估

TL;DR我们提出了 TransportationGames,这是一个经过精心设计和全面评估的基准测试,用于评估 (多模态) 大规模语言模型在交通领域中的性能,并发现尽管某些模型在某些任务中表现良好,但整体上仍有很大的改进空间。我们希望 TransportationGames 的发布能够成为未来研究的基础,加速 (多模态) 大规模语言模型在交通领域中的实施和应用。