气候应用数据降维的机器学习技术

May, 2024

气候应用数据降维的机器学习技术

Machine Learning Techniques for Data Reduction of Climate Applications

Xiao Li, Qian Gong, Jaemoon Lee, Scott Klasky, Anand Rangarajan...

TL;DR科学家们提出了一种流水线压缩方法，利用神经网络和保证自编码器进行数据压缩，以实现高压缩比同时达到模拟或数据收集的目标，并且实验证明该方法优于文献中的可比方法。

Abstract

Scientists conduct large-scale simulations to compute derived quantities-of-interest (QoI) from primary data. Often, QoI are linked to specific features, regions, or time intervals, such that data can be adaptive

simulations quantities-of-interest pipelined compression guaranteed autoencoder climate data

发现论文，激发创造

CFD 应用数据降维的机器学习技术

使用保证误差界限的保证块自编码器（GBATC）方法，通过张量相关性（Tensor Correlations）减少计算流体力学（CFD）等科学应用程序产生的时空数据。该方法使用一个多维张量块（跨越空间和时间）作为输入和输出，捕捉张量内的时空和物种间的关系。实验结果表明，该方法可以在保持原始数据误差在科学上可接受范围内，实现二个数量级的减少。与基于 SZ 的减少方案相比，我们的方法在给定误差界限下可以达到更高的压缩比或给定压缩比下拥有更好的误差。

Apr, 2024

科学数据的时空自适应压缩与特征保留 -- 以极端气候事件分析为例的案例研究

以自适应误差控制的时空自适应压缩为基础，该研究提出了一种解决存储成本问题的新技术，在提高后续分析精度的同时，通过减少数据精度和增加时间步长频率，实现了更准确的分析结果。通过与现有方法进行比较，该方法在中等和大的压缩比下提高了 26.4-51.3% 和 77.3-571.1% 的热带气旋追踪的匹配情况，并且仅有 5-11% 的计算开销。

Jan, 2024

利用空间变异自编码器融合气候数据产品

该研究提出了一种可识别和可解释的自编码器，利用贝叶斯统计框架对多个气候数据产品进行融合和组合，以捕捉有用的空间模式，并通过对数据中的模式施加约束，在学习中创建了可解释的一致性。通过在高山地区结合多个降水产品的信息，证明了自编码器的实用性。

Mar, 2024

基于分层自编码器的大规模高分辨率科学数据有损压缩

我们提出了一个神经网络模型，能够在不牺牲重建质量的情况下，显著压缩大规模科学数据，并在公开的科学基准数据集和高分辨率气候模型数据集上进行了测试，达到了 140 的压缩比和可忽略的重建误差。

Jul, 2023

生物识别应用中的模型压缩技术综述

深度学习算法在提高人类任务自动化能力方面发挥了重要作用，然而，这些模型性能的巨大提升与其日益复杂性高度相关，限制了它们在以人为本的应用中的实用性，而这些应用通常部署在资源受限的设备上。因此，我们需要压缩技术来大幅减小深度学习模型的计算和内存成本，同时又能保持较高的性能。本文通过对模型压缩技术的综述，特别关注量化、知识蒸馏和修剪等方法在生物特征识别应用中的应用，从而对该领域的研究现状进行了系统化总结。我们对这些技术的比较价值进行了关键分析，着重讨论了它们的优点和缺点，并提出了进一步研究方向的建议，以改进当前的方法。此外，我们还讨论和分析了模型偏见与模型压缩之间的联系，强调了未来的研究需要将压缩技术引向模型公平性的方向。

Jan, 2024

了解机器学习训练集中无损压缩的有效性

对机器学习和人工智能在高性能计算中的应用，数据压缩对模型质量的影响以及现代有损压缩方法的优势进行了系统评估，指出了指导将来使用和设计有损压缩器的关键见解。

Mar, 2024

机器学习方法在统计降尺度中的比较：以日降水和极端降水为例

本文针对机器学习在全球气候模型统计降尺度中的应用进行研究，将 Bias Correction Spatial Disaggregation, Ordinary Least Squares, Elastic-Net, Support Vector Machine 等方法与 Multi-task Sparse Structure Learning, BCSD 和 Convolutional Neural Networks 等先进机器学习方法进行对比分析，结果表明直接应用最新的机器学习方法不能优于较简单的传统方法，文中特别关注了美国东北部地区的每日降水量，结果对每种方法的能力进行了评估。

Feb, 2017

气候下尺度化：基于深度学习的降水数据超分辨率模型，带有注意力块和跳跃连接

通过使用深度卷积神经网络和其他技术，将低分辨率的降水数据降尺度为高分辨率的数据，以追踪降水并提高气候下缩放模型的预测准确性。

Mar, 2024

基于机器学习方法的高效气候模拟

该论文提出了一种名为 NeuroClim 的框架，用于采用脑神经算法设计气候混合仿真，并为此提供了一个平台、一个数据集和一种量化的评估方法，以促进人工智能和气候研究的交叉。

Aug, 2022

大规模地质碳和能源储存的高效机器学习代理

通过专门的机器学习模型和领域分解，该研究提出了一种减少大规模地质储存成本的方法，以增强机器学习在地质碳储存中的效率。

Oct, 2023