Jul, 2024

AstroMLab 1:谁能赢得天文知识问答?

TL;DR通过使用第一个专门为天文学设计的基准数据集,我们全面评估了专有和开放权重的大型语言模型。我们的分析检查了模型在各种天文学子领域的性能,并评估了响应校准,对于潜在在研究环境中的部署至关重要。Claude-3.5-Sonnet在精度上优于竞争对手高达4.6个百分点,达到了85.0%的准确率。对于专有模型,我们观察到实现相似分数在特定的天文学基准测试中每隔3到12个月普遍降低成本。开源模型已经得到快速改进,LLaMA-3-70b(80.6%)和Qwen-2-72b(77.7%)现在已经与一些最好的专有模型竞争。我们发现在各个主题上存在性能差异,非以英语为重点的模型通常在系外行星相关领域、恒星天体物理学和仪器相关问题上更困难。这些挑战可能来自训练数据较少、历史背景有限以及这些领域的快速最新发展。这种模式在开放权重模型和专有模型中都存在,显示了培训数据多样性对模型在专业科学领域中的性能影响。表现最好的模型表现出良好的校准自信度,在自信度和正确性之间的相关性超过0.9,尽管它们倾向于稍微缺乏自信。快速、低成本推理的开放权重模型的发展为在天文学中实现经济部署提供了新的机会。观察到的快速进展表明,利用大型语言模型驱动的天文学研究可能在不久的将来成为可能。