Aug, 2024

在空间任务上评估大型语言模型:多任务基准研究

TL;DR本研究填补了大型语言模型在空间任务表现评估的空白,通过引入一个新的多任务空间评估数据集,系统性探讨和比较了多种先进模型在空间任务上的表现。研究发现,gpt-4o在整体准确率上表现最佳,同时特定的提示策略显著提升了模型在特定任务中的表现。