宇宙学中的数据压缩和推理:自监督机器学习
本文综述了信息理论、自监督学习和深度神经网络三者交叉领域的最新研究进展,提出了自监督信息理论学习问题的统一框架,并讨论了信息论量的经验测量和估算方法。
Apr, 2023
本研究展示了教师 - 学生模型压缩的有效性,通过将已经学习的大型深度自监督模型压缩到较小的模型,使得学生模型具有和教师模型相似的数据点嵌入空间,最终在 ImageNet 分类任务上获得了比监督学习方法更优秀的结果。
Oct, 2020
使用自监督学习的方式学习天文学中的巨大数据源,通过图像表示的学习,可以在不需要过多标记的情况下获得与使用有监督学习方法获得的结果相当甚至更好的效果,可能可以有效减少标记数量。
Dec, 2020
基于模型信息性对原始数据集预训练的压缩阶段进行自我监督压缩,并利用大型预训练模型的潜力,提出了 SC-DD 框架,相对传统的监督学习方案,它在数据压缩和恢复方面带来了更多信息的压缩和恢复能力,并在 CIFAR-100、Tiny-ImageNet 和 ImageNet-1K 数据集上表现出了显著的优越性。
Apr, 2024
本文提出了一种用于没有解析似然函数的宇宙学工具的似然免费推断方法,它包括使用大规模渐近最优数据压缩来将数据空间的维度降低到仅每个参数的一个数字,并使用密度估计似然免费推断方法在宇宙学中首次应用于参数化数据和参数的联合分布的建模,此方法可同时进行参数推断和贝叶斯模型比较。
Jan, 2018
我们倡导一种新的宇宙学基于概率的推断范式,利用最近在机器学习及其底层技术中的发展,加速在高维环境中的贝叶斯推断。具体来说,我们结合了(i)模拟 —— 其中训练一个机器学习模型来模仿宇宙观测量,例如 CosmoPower-JAX;(ii)可导性和概率编程,例如 JAX 和 NumPyro;(iii)可伸缩的 MCMC 采样技术,可以利用梯度,例如哈密顿蒙特卡罗;以及(iv)解耦且可伸缩的贝叶斯模型选择技术,纯粹从后验样本计算贝叶斯证据,例如在 harmonic 中学到的调和均值。这一范式使我们能够在传统方法的一小部分时间内进行完整的贝叶斯分析,包括参数估计和模型选择。首先,我们在 37 - 维和 39 - 维参数空间中,通过模拟的宇宙剪切分析,展示了这种范式的应用,比较了 ΛCDM 模型和动力学暗能量模型($w_0w_a$CDM)。我们的结果与传统的嵌套采样方法计算得到的后验轮廓和证据估计非常吻合,而且计算成本从需要 48 个 CPU 核心上的 8 个月时间减少到了使用 12 个 GPU 的 2 天时间。其次,我们考虑了三个模拟的下一代调查的联合分析,每个调查都进行了 3x2pt 分析,得到了 157 - 维和 159 - 维参数空间。在这种高维环境中,标准的嵌套采样技术根本不可行,需要在 48 个 CPU 核心上投入 12 年的计算时间。而另一方面,我们提出的方法只需要 24 个 GPU 的 8 天计算时间。我们在分析中使用的所有软件包都是公开可用的。
May, 2024
本研究旨在通过利用知识蒸馏和神经图像压缩的思想,采用先进的监督压缩方法,使用带有随机瓶颈的教师模型和学生模型,以及可学习的熵编码先验方法来更高效地压缩深度学习的中间特征表示。我们在三个视觉任务上将我们的方法与各种神经图像和特征压缩基线进行比较,并发现我们的方法在保持端到端时延更小的情况下,实现了更好的受监督的率失真性能。我们还展示了学习到的特征表示可以调整为服务于多个下游任务。
Aug, 2021
本文采用简单的机器学习方法,基于降维和监督学习方法建立基于暗物质密度参数的快速暗物质密度场仿真方法,并通过预测和反投影系数来预测不同宇宙学参数的密度立方体。该方法在保证相应精度下,相比于完整的 N 体模拟大幅缩短计算时间,可以显著加速宇宙模型参数和模型推断等工作,为 ESA/NASA Euclid 任务等开放了更广泛的应用空间。
Apr, 2023
该论文提出了一种自我监督协作学习框架(SelfCoLearn),用于从不完整的 k - 空间数据准确地重建动态磁共振图像,该框架包括双网络协作学习、重新采样数据增强和特殊设计的共同训练损失三个重要的组件。在体内数据集上进行评估,结果表明,该方法具有从不完整的 k - 空间数据中捕获必要和固有表示以实现高质量和快速动态磁共振成像的强大能力。
Aug, 2022