AstroMLab 1：谁能赢得天文知识问答？

Jul, 2024

AstroMLab 1：谁能赢得天文知识问答？

AstroMLab 1: Who Wins Astronomy Jeopardy!?

Yuan-Sen Ting, Tuan Dung Nguyen, Tirthankar Ghosal, Rui Pan, Hardik Arora...

TL;DR通过使用第一个专门为天文学设计的基准数据集，我们全面评估了专有和开放权重的大型语言模型。我们的分析检查了模型在各种天文学子领域的性能，并评估了响应校准，对于潜在在研究环境中的部署至关重要。Claude-3.5-Sonnet在精度上优于竞争对手高达4.6个百分点，达到了85.0%的准确率。对于专有模型，我们观察到实现相似分数在特定的天文学基准测试中每隔3到12个月普遍降低成本。开源模型已经得到快速改进，LLaMA-3-70b（80.6%）和Qwen-2-72b（77.7%）现在已经与一些最好的专有模型竞争。我们发现在各个主题上存在性能差异，非以英语为重点的模型通常在系外行星相关领域、恒星天体物理学和仪器相关问题上更困难。这些挑战可能来自训练数据较少、历史背景有限以及这些领域的快速最新发展。这种模式在开放权重模型和专有模型中都存在，显示了培训数据多样性对模型在专业科学领域中的性能影响。表现最好的模型表现出良好的校准自信度，在自信度和正确性之间的相关性超过0.9，尽管它们倾向于稍微缺乏自信。快速、低成本推理的开放权重模型的发展为在天文学中实现经济部署提供了新的机会。观察到的快速进展表明，利用大型语言模型驱动的天文学研究可能在不久的将来成为可能。

Abstract

We present a comprehensive evaluation of proprietary and open-weights large language models using the first astronomy-specific benchmarking dataset. This dataset comprises 4,425 multiple-choice questions curated

发现论文，激发创造

星际闲聊：使用大型语言模型与天文文献交流

本文采用OpenAI GPT-4大型语言模型进行天文论文的上下文引导交互，并利用蒸馏技术最优化输入效率。通过10个蒸馏文档的多文献语境去探索模型的反应，结果表明GPT-4能够提供具有相关研究成果框架背景下的详细答案，对天文学界提供了潜力巨大的应用前景，特别是猜测生成方面的可能性。

Apr, 2023

AstroLLaMA: 面向天文学领域的专业基础模型

AstroLLaMA是一个从LLaMA-2微调而来的70亿参数模型，通过使用arXiv上的30万篇天文学摘要进行微调，优化传统的因果语言建模，在困惑度上比Llama-2低30%。尽管参数数量显著较少，我们的模型生成的文本补全和嵌入提取比当前的基础模型更富有见解和科学相关性。AstroLLaMA作为一个具有广泛微调潜力的稳健的领域专用模型，其公开发布旨在推动天文学研究，包括自动论文摘要和对话系统开发。

Sep, 2023

建构具有影响力的天文机器学习研究：研究人员和审稿人的最佳实践

尽管机器学习方法在天文学领域得到了广泛应用且不断发展，但目前天体物理文献中对于实施机器学习模型和报告结果的最佳实践、挑战和局限性，往往尚未完全报道。因此，本文旨在为天文学界的作者、审稿人和编辑提供入门指南，解决该问题，并确保结果的准确性、研究结果的可重复性和方法的实用性。

Oct, 2023

低限制机制的物理模拟能力

大型语言模型结合计算物理学和编程能力，能够模拟和预测物理世界，但目前的最先进模型在计算物理问题上仍具有显著的失败模式和改进空间。

Dec, 2023

AstroLLaMA-Chat：使用对话和多样化数据集扩展AstroLLaMA

利用紧凑的7B参数的LLaMA-2模型来提升天文学问题回答的性能，通过有针对性、持续的预训练，在天文学语料库的精心筛选子集中取得了显著的专业主题理解提升，结果表明有限的资源下的持续预训练仍然可以提高模型在专业主题上的性能，该模型已经作为首个针对天文学社区的开源对话式人工智能工具发布，名称为AstroLLaMA-Chat。

Jan, 2024

PAPERCLIP: 将天文观测与自然语言关联的多模型

我们提出了一种名为PAPERCLIP的方法，使用神经网络模型将望远镜拍摄的天文观测与自然语言进行关联，通过从预训练的对比语言-图像预训练（CLIP）模型微调成功的观测提案摘要和相应的下游观测，可选择使用大型语言模型（LLM）来进行摘要总结。以哈勃空间望远镜（HST）的观测为例，我们展示了经过微调的模型通过针对图像检索和描述检索的测试体现了观测和自然语言之间的有意义的联合表示，通过使用文本作为界面，我们的研究证明了利用通用基础模型而非任务特定模型与天文数据交互的潜力。

Mar, 2024

深度学习与基于LLM的方法应用于恒星光变曲线分类

利用机器学习深度学习技术，本研究评估了基于深度学习和大型语言模型的自动分类变星光变曲线模型的性能，并在天文学应用中展示了高准确率和多模态模型的发展。

Apr, 2024

AstroPT：天文学观测模型的扩展

该论文介绍了AstroPT，这是一个针对天文学应用开发的自回归预训练变换器。AstroPT模型在DES Legacy Survey DR8的860万个512×512像素grz带星系邮票观测数据上进行了预训练。我们训练了一系列不断增长参数的基础模型，其参数从100万个到21亿个，发现AstroPT遵循与文本模型类似的饱和的对数-对数缩放规律。我们还发现，模型性能在线性探测方面随着模型大小的增加而提高，直到模型参数饱和点。我们相信，协作社区开发是实现开源的“大观测模型”的最佳途径，即采用与自然语言处理中所见规模相同的观测科学数据进行训练的模型。为此，我们在MIT许可下发布AstroPT的源代码、权重和数据集，并邀请潜在合作者与我们共同构建和研究这些模型。

May, 2024

天文学研究中大型语言模型评估框架设计

大型语言模型（LLMs）正在改变科学研究的方式。我们提出了一个在天文学领域评估研究者与LLMs交互的实验设计，并通过一个Slack聊天机器人来回答用户的查询，所用的响应取自arXiv上的天文学论文。我们记录并匿名用户的问题和机器人的回答、用户对LLM的点赞和点踩、用户对LLM的反馈以及与查询的检索文档和相似度分数。我们的数据收集方法将为未来对天文学中的LLM工具进行动态评估提供可能。

May, 2024

探索在天文学科学出版物中使用ChatGPT的应用

通过对ChatGPT用于学术写作时所使用的词进行提取，以及在100万篇天文学文章中搜索这些词，研究评估了这些模型在天文学论文写作中的广泛应用，并提出建议，鼓励组织、出版商和研究人员共同制定伦理和实用指南，以最大程度地发挥这些系统的优势并保持科学严谨。

Jun, 2024