AstroPT：天文学观测模型的扩展

May, 2024

AstroPT: Scaling Large Observation Models for Astronomy

Michael J. Smith, Ryan J. Roberts, Eirini Angeloudi, Marc Huertas-Company

TL;DR该论文介绍了 AstroPT，这是一个针对天文学应用开发的自回归预训练变换器。AstroPT 模型在 DES Legacy Survey DR8 的 860 万个 512×512 像素 grz 带星系邮票观测数据上进行了预训练。我们训练了一系列不断增长参数的基础模型，其参数从 100 万个到 21 亿个，发现 AstroPT 遵循与文本模型类似的饱和的对数 - 对数缩放规律。我们还发现，模型性能在线性探测方面随着模型大小的增加而提高，直到模型参数饱和点。我们相信，协作社区开发是实现开源的 “大观测模型” 的最佳途径，即采用与自然语言处理中所见规模相同的观测科学数据进行训练的模型。为此，我们在 MIT 许可下发布 AstroPT 的源代码、权重和数据集，并邀请潜在合作者与我们共同构建和研究这些模型。

Abstract

This work presents astropt, an autoregressive pretrained transformer developed with astronomical use-cases in mind. The →

astropt autoregressive pretrained transformer astronomical use-cases des legacy survey dr8 open source 'large observation model

发现论文，激发创造

EarthPT：地球观测的基础模型

EarthPT 是一个地球观测预训练的变压器模型，通过自回归自监督方式训练了一个 7 亿参数、针对地球观测应用场景的模型。我们展示了 EarthPT 是一个有效的预测器，可以准确预测未来的像素级表面反射率在 400-2300nm 范围内变化。此外，通过 EarthPT 学习的嵌入具有语义上有意义的信息，可用于下游任务，如高精度、动态的土地利用分类。

Sep, 2023

星际闲聊：使用大型语言模型与天文文献交流

本文采用 OpenAI GPT-4 大型语言模型进行天文论文的上下文引导交互，并利用蒸馏技术最优化输入效率。通过 10 个蒸馏文档的多文献语境去探索模型的反应，结果表明 GPT-4 能够提供具有相关研究成果框架背景下的详细答案，对天文学界提供了潜力巨大的应用前景，特别是猜测生成方面的可能性。

Apr, 2023

BigSSL：大规模半监督学习在自动语音识别中的探索前沿

使用预先训练、自我训练和模型规模扩大的方法，利用大型、多样化的未标记数据集，我们取得了一系列使用巨型自动语音识别（ASR）模型的结果，表明它可以在极大的任务效率下使用仅有少量标记数据来实现最先进性能。在一个含有 34k 个小时标记数据的 ASR 任务中，通过微调一个 80 亿参数的预训练 Conformer 模型，我们可以实现仅有 3％的训练数据即可达到 SoTA 性能，并且使用完整的训练集可以显著提高 SoTA。我们还报告了使用大型预训练和自我训练模型对多个下游任务的通用收益，涵盖了许多语音领域的公共基准测试，并跨越了多个数据集大小的数量级，并利用预训练网络的学习表示在非 ASR 任务中取得了 SoTA 结果。

Sep, 2021

AstroLLaMA-Chat：使用对话和多样化数据集扩展 AstroLLaMA

利用紧凑的 7B 参数的 LLaMA-2 模型来提升天文学问题回答的性能，通过有针对性、持续的预训练，在天文学语料库的精心筛选子集中取得了显著的专业主题理解提升，结果表明有限的资源下的持续预训练仍然可以提高模型在专业主题上的性能，该模型已经作为首个针对天文学社区的开源对话式人工智能工具发布，名称为 AstroLLaMA-Chat。

Jan, 2024

红巨星的年龄和质量估计的光谱变换器（SPT）

使用 Spectral Transformer（SPT）模型，通过红巨星的光谱预测其年龄和质量，具有较高的精度和一致性，超越传统机器学习算法，并与天体测量和恒星等值线拟合技术表现出较高的相关性。

Jan, 2024

适应性点变换器

通过提出自适应点云变换器（AdaPT）模型，文章解决了点云变换器（PT）在处理大规模点云时的可扩展性挑战，实现了较低的计算复杂度和竞争性的分类准确率。

Jan, 2024

AI 是否能理解宇宙？通过天体物理数据对 GPT 进行精调的测试

通过对天文数据进行微调，GPT 模型证明了其在分类天体物理现象、区分 GRB 类型、估算类星体的红移以及黑洞参数估算方面的能力，标志着大型语言模型在科学研究中的有效性。同时，文章还提出了一种基于数据理解和基础模块建设的方法，为培养和控制比人类更聪明的 AI 提供了思路。

Apr, 2024

面向内容丰富的文本图像生成的自回归模型扩展

该研究提出了 Pathways Autoregressive Text-to-Image（Parti）模型，它是一个将文本转换为高保真度照片般的图像的模型，并支持包含复杂组合和世界知识的内容丰富的合成。

Jun, 2022

OPT：开放预训练 Transformer 语言模型

我们呈现了 Open Pre-trained Transformers (OPT)，一个解码器型的预训练 transformers 套件，范围从 125M 到 175B 个参数，这些我们希望与感兴趣的研究人员完全和负责任地分享。我们展示了 OPT-175B 与 GPT-3 相媲美，同时仅需要 1/7 的碳足迹进行开发。

May, 2022

Cerebras-GPT：基于 Cerebras 晶片集群训练的优化开放式云算模型

通过高效的预训练和扩展、开放数据集和工具来改善大语言模型的最近研究进展；我们将这些进展结合起来，推出了 Cerebras-GPT，这是一个从 111M 扩展到 13B 参数的开放计算最优语言模型家族；我们在 Eleuther Pile 数据集上训练 Cerebras-GPT 模型，并使用 DeepMind Chinchilla 规则进行高效预训练，比较 Cerebras-GPT 和其他公开可用模型，以展示 Cerebras-GPT 上所有模型均在预训练和下游目标上具有最先进的训练效率。我们描述了我们的经验教训，包括最大更新参数化（μP）如何进一步改善大型模型扩展，在规模上提高精度和超参数预测可预测性；我们发布了我们的预训练模型和代码，使本文成为首个将计算最优模型缩放与基于固定数据集尺寸训练的模型进行比较的开放和可重复使用的工作。

Apr, 2023