天文学中的机器学习：实用概述

Apr, 2019

Machine Learning in Astronomy: a practical overview

Dalya Baron

TL;DR本文主要介绍了天文学中大数据和机器学习的应用，重点讲解了监督机器学习和无监督机器学习两种算法，包括数据预处理、评估方法、支持向量机、随机森林、浅层神经网络、聚类分析、降维、可视化和异常检测等方面，旨在提高天文学家使用这些工具从海量数据中挖掘新知识的能力。

Abstract

astronomy is experiencing a rapid growth in data size and complexity. This change fosters the development of data-driven science as a useful companion to the common model-driven data analysis paradigm, where astronomers develop automatic tools to mine datasets and extract novel informa

astronomy big data machine learning supervised learning unsupervised learning

发现论文，激发创造

天文学中的数据挖掘与机器学习

本文回顾了数据挖掘和机器学习在天文学中的应用现状，介绍了常见的机器学习算法，以及数据挖掘在天文学中的广泛应用。文章指出，只要选择合适的算法并遵循天文学问题的引导，数据挖掘可以成为一种强大的工具，而不是一个可疑的黑盒子。

Jun, 2009

天文学中的无监督学习综述

该综述论文总结了流行的无监督学习方法，并概述了这些方法在天文学中的过去、现在和未来的应用。无监督学习通过组织数据集的信息内容，以便能够提取知识。传统上，这是通过降维技术的实现，如主成分分析或使用自编码器，或者通过高维空间的简化可视化，例如使用自组织映射等。无监督学习的其他可取属性包括识别集群，即类似对象的组群，这传统上是通过 k 均值算法或最近通过密度聚类如 HDBSCAN 实现的。最近，出现了将降维和聚类方法链结在一起的复杂框架。然而，现在没有数据集是完全未知的。因此，目前有很多研究致力于自监督和半监督方法，它们既受益于有监督学习又受益于无监督学习。

Jun, 2024

太阳物理中的机器学习

机器学习可以在太阳物理学中应用，帮助我们更深入地了解太阳大气中发生的复杂过程，并通过更复杂的模型来解释数据以及通过自动化分析太阳数据，减少人工劳动，提高研究效率。

Jun, 2023

建构具有影响力的天文机器学习研究：研究人员和审稿人的最佳实践

尽管机器学习方法在天文学领域得到了广泛应用且不断发展，但目前天体物理文献中对于实施机器学习模型和报告结果的最佳实践、挑战和局限性，往往尚未完全报道。因此，本文旨在为天文学界的作者、审稿人和编辑提供入门指南，解决该问题，并确保结果的准确性、研究结果的可重复性和方法的实用性。

Oct, 2023

机器学习与超新星宇宙学的未来

该研究评述了近期关于开发自动化系统以识别和分类超新星，并将其用作宇宙学标准烛光源的努力，强调了机器学习方法在优化大规模调查的科学产出中的基本作用。

Aug, 2019

利用机器学习确定天文学研究的优先事项

本文探讨机器学习技术如何辅助科学战略规划。作者使用高影响力天文期刊的摘要，运用潜在狄利克雷分配（Latent Dirichlet Allocation）的方法，找到了可以预测研究兴趣的领先指示器，并证明这种方法可以较好地反映出 2010 年全国科学院天文与天体物理学十年规划科学前沿小组确定的优先研究领域。作者还提出两种度量方法：一种是所有科学论文贡献率之和的度量方法，另一种是这些计数的复合年增长率，这些方法展现出与相同十年规划中提交的白皮书相同的相关性。结果表明，十年规划未能充分强调快速增长的研究。

Mar, 2022

天文学物体分类的自动聚类算法

本文研究了多波段数据分类问题，使用了学习向量量化、单层感知器和支持向量机三种机器学习算法，并使用了特征选择技术进行特征重要性评价。结果表明，在特征较少时，学习向量量化和单层感知器具有更好的性能，而在考虑更多特征时，支持向量机具有更好性能。该方法可以用于预选 AGN 候选对象。

Mar, 2004

物理学中的机器学习简要指南

机器学习在物理学领域的应用与挑战概述。

Oct, 2023

利用机器学习检测移动物体

太阳系小天体的科学研究最终从对这些天体的搜索开始。本章对使用机器学习技术在天文图像中寻找移动天体（包括自然和人造天体）的方法进行了综述。综述包括了传统非机器学习技术的简要回顾以及相对不成熟的机器学习文献中的三大类方法：流迹检测、图像序列中移动点源的检测以及位移堆叠搜索中移动源的检测。在大多数情况下，人们使用卷积神经网络，这是很自然的选择。文章还介绍了两个例子网络：一种我设计的残差网络，用于各种位移堆叠搜索，以及一种专门设计用于预测源亮度及其不确定性的卷积神经网络。在讨论文献和例子网络时，我还讨论了机器学习技术的各种潜在问题，包括过拟合的重要问题。我还讨论了与机器学习技术相关的各种陷阱以及在将机器学习应用于新问题时的最佳实践方法，包括创建稳健的训练集、验证和避免过拟合的训练方法。

May, 2024

天文图像的自监督表征学习

使用自监督学习的方式学习天文学中的巨大数据源，通过图像表示的学习，可以在不需要过多标记的情况下获得与使用有监督学习方法获得的结果相当甚至更好的效果，可能可以有效减少标记数量。

Dec, 2020