GalaxiesML：用于机器学习的星系图像、光度、红移和结构参数数据集

Sep, 2024

GalaxiesML：用于机器学习的星系图像、光度、红移和结构参数数据集

GalaxiesML: a dataset of galaxy images, photometry, redshifts, and structural parameters for machine learning

Tuan Do, Bernie Boscoe, Evan Jones, Yun Qi Li, Kevin Alfaro

TL;DR本研究解决了机器学习应用中星系数据集匮乏的问题，提出了一个统一且一致的星系图像和光度数据集。该数据集包含286,401幅图像，并展示了利用图像估算红移的优越性，结果表明图像数据在红移估算中的精度明显高于单独使用光度数据。这项工作将促进未来星系调查数据的机器学习方法开发。

Abstract

We present a dataset built for machine learning applications consisting of galaxy photometry, images, spectroscopic redshifts, and structural properties. This dataset comprises 286,401 galaxy images and

发现论文，激发创造

基于旋转不变卷积神经网络的星系形态预测

本篇研究利用一种基于深度神经网络的方法，通过对称性原理对SDSS和Galaxy Zoo的星系图像进行分类，能够在大规模的图像数据集上高效准确地进行星系形态分类，这一方法在提高工作效率的同时也能保持非常高的分类精度。

Mar, 2015

螺旋-椭圆自动星系形态分类从望远镜图像

发展了两种新颖的星系形态统计方法，并简化了现有的图像统计方法，通过随机森林分类器准确检测螺旋和椭圆星系。

Oct, 2023

基于天体目录的场级别模拟推断：系统效应的影响

使用图神经网络对包含多种观测效应的星系目录进行训练和测试，发现尽管这些效应降低了模型的精度和准确性，增加了模型失效的星系目录比例，但模型表现良好的星系目录比例超过90％，从而展示了这些模型在应用于真实数据时约束宇宙学参数的潜力。

Oct, 2023

星系分类：使用数值数据的机器学习方法进行形状分类

本文介绍了使用Galaxy Zoo项目的数值数据进行星系分类的机器学习模型，该模型利用卷积神经网络从星系图像中提取特征并将其分类为螺旋形或椭圆形。我们通过将模型与人类分类器在Galaxy Zoo数据集的子集上进行比较来证明模型的有效性。我们的结果表明，我们的模型在星系分类上具有高准确性，并有可能显著增强我们对星系形成和演化的理解。

Nov, 2023

对螳螂虾的初步报告：多次调查的计算机视觉光度红移模型

我们详细介绍了我们创建的多调查计算机视觉模型Mantis Shrimp，用于光度红移估计，它融合了紫外（GALEX）、光学（PanSTARRS）和红外（UnWISE）图像，并使用深度学习可解释性诊断来衡量模型如何利用不同输入的信息并推理卷积神经网络的行为，特别是在物理根据的星系属性方面。

Feb, 2024

一个灵活的框架，通过在大型视觉模型上植入人机协作来分析星系图像数据

通过利用大视觉模型和少样本学习等方法，本文提出了一个通用分析星系图像的框架，解决了天文数据处理中的重复工作和数据分布不平衡的问题，并通过人类知识的加入提高了处理星系图像的可靠性和解释性。该框架在星系图像的多个任务上展现了显著的少样本学习能力和通用适应性，为多模态数据的集成分析提供了可能性。

May, 2024

基于卷积神经网络的Lyman断层星系分类与DESI中红移回归

利用基于卷积神经网络 (CNN) 的 QuasarNET 模型和数据增强技术，本研究通过确定Laman Break Galaxies (LBGs)是否是LBGs以及通过红移确定它们与地球的距离，进而将这些星系放置在DESI的3D地图上，提高模型性能并实现了高达94%的平均得分。

Jun, 2024

无光谱的星系光谱学: 条件扩散模型解读光度图像中的星系属性

开发了一种能够从光度宽频带图像中预测光学星系光谱的生成式人工智能方法，并通过与观测光谱的对比显示了良好的一致性，该方法还能推断光度图像中的速度色散和活跃星系核的存在，并可以在大规模光度调查中获得科学上有趣的星系属性。

Jun, 2024

利用星系演化作为基于物理的真实性生成模型的源数据

我们提出了一种条件性去噪扩散概率模型 (DDPM) 和条件性变分自动编码器 (CVAE)，并通过宇宙学数据中的星系图像测试它们生成逼真星系的能力。我们发现，基于人类评估，两个模型都能生成具有可比较逼真度的星系，但基于物理度量方式的性能评估更能辨别它们的优缺点，总体而言，DDPM模型在绝大多数物理度量方式中表现更好。最终，如果我们能证明生成模型能够学习星系演化的物理规律，它们有潜力带来新的天体物理学发现。

Jul, 2024

AstroMLab 1：谁能赢得天文知识问答？

通过使用第一个专门为天文学设计的基准数据集，我们全面评估了专有和开放权重的大型语言模型。我们的分析检查了模型在各种天文学子领域的性能，并评估了响应校准，对于潜在在研究环境中的部署至关重要。Claude-3.5-Sonnet在精度上优于竞争对手高达4.6个百分点，达到了85.0%的准确率。对于专有模型，我们观察到实现相似分数在特定的天文学基准测试中每隔3到12个月普遍降低成本。开源模型已经得到快速改进，LLaMA-3-70b（80.6%）和Qwen-2-72b（77.7%）现在已经与一些最好的专有模型竞争。我们发现在各个主题上存在性能差异，非以英语为重点的模型通常在系外行星相关领域、恒星天体物理学和仪器相关问题上更困难。这些挑战可能来自训练数据较少、历史背景有限以及这些领域的快速最新发展。这种模式在开放权重模型和专有模型中都存在，显示了培训数据多样性对模型在专业科学领域中的性能影响。表现最好的模型表现出良好的校准自信度，在自信度和正确性之间的相关性超过0.9，尽管它们倾向于稍微缺乏自信。快速、低成本推理的开放权重模型的发展为在天文学中实现经济部署提供了新的机会。观察到的快速进展表明，利用大型语言模型驱动的天文学研究可能在不久的将来成为可能。

Jul, 2024