多层次、多尺度可视分析方法在评估多保真度 HPC 系统中的应用

Jun, 2023

多层次、多尺度可视分析方法在评估多保真度 HPC 系统中的应用

A Multi-Level, Multi-Scale Visual Analytics Approach to Assessment of Multifidelity HPC Systems

Shilpika, Bethany Lusch, Murali Emani, Filippo Simini, Venkatram Vishwanath...

TL;DR本文介绍了一种用于超级计算机的综合分析系统，它通过监测硬件、作业和环境的日志数据，使用多分辨率动态模式分解技术（mrDMD）和可视化分析支持，帮助用户快速提取超级计算机的使用和错误模式。

Abstract

The ability to monitor and interpret of hardware system events and behaviors are crucial to improving the robustness and reliability of these systems, especially in a supercomputing facility. The growing complexity and scale of these systems demand an increase in →

supercomputing monitoring log analysis multiresolution dynamic mode decomposition visual analytics

发现论文，激发创造

多分辨率动态模式分解

通过将动态模分解（Dynamic mode decomposition，DMD）与多分辨率分析相结合，本文提出了一种分解方法，可以将复杂系统分解成一系列多分辨率时间尺度组件，从而有效解决动力学数据分离等问题，并且在多尺度动态数据的示例数据上展示了其出色的分解结果。

Jun, 2015

半监督跨模态注重力异构软件系统异常检测

该研究通过系统化的研究，发现了结合日志和度量数据来检测系统异常更加有效，提出了基于异构数据的端到端半监督方法 Hades，并通过大量模拟数据和华为云数据集的评估结果，证明了模型在检测系统异常方面的有效性。

Feb, 2023

缺陷演化分析的日志总结

日志分析和监控是软件维护和缺陷识别的重要方面。本文提出了一种基于语义的在线聚类方法，动态更新日志聚类以实现对代码错误生命周期的监控，并引入了一种新的度量指标来评估时间日志聚类的性能。通过在工业数据集上进行实验，发现我们的解决方案优于类似系统，希望本研究能在缺陷数据集的时间性探索方面鼓励更多研究。

Mar, 2024

可扩展高效的高维计算网络入侵检测

本文提出了一种创新的超维计算学习框架 ——CyberHD，通过重新生成维度来捕捉网络威胁的复杂模式，达到极低维度，并且具有很高的硬件错误容错性。

Apr, 2023

通过健康监测和重构实现系统弹性

我们展示了一个基于基于物理学的数字双胞胎模型和三个模块的端到端框架，旨在提高制造系统对意外事件的抗干扰能力。

Aug, 2022

轻量级多系统多元相互连接与差异发现

该研究提出了一种轻量级的互连和差异发现机制（LIDD），用于识别多系统环境中的异常行为，通过多变量分析技术估计传感器之间的相似热图，并应用信息检索算法提供相关的多级互连和差异细节。在 CERN 的紧凑双曲线磁铁（CMS）实验的 Hadron Calorimeter 的读出系统上的实验验证了所提出方法的有效性，以符合预期的能量量能器互连配置聚类读出系统和传感器，同时捕获发散聚类中的异常行为并估计其根本原因。

Apr, 2024

超维度计算：生物数据的快速、稳健和可解释范式

生物信息学中的关键词为：算法、深度学习、超维计算、组学数据。本文总结并探索了超维计算在生物信息学中的潜力，强调了其效率、可解释性和处理多模态和结构化数据的能力。超维计算对于组学数据搜索、生物信号分析和健康应用具有巨大的潜力。

Feb, 2024

复杂系统中可解释故障诊断的 LLM 集成

介绍了一种整合物理诊断工具和大型语言模型的集成系统，旨在增强复杂系统（如核电厂）中故障诊断的可解释性，通过识别故障并提供其造成和影响的清晰易懂的解释，该系统在溶盐设施上的应用验证了其阐明诊断故障与传感器数据之间关联、回答操作员问题和评估历史传感器异常的能力，强调将基于模型的诊断与先进人工智能结合以提高自主系统的可靠性和透明度。

Feb, 2024

机器学习模型分析的改进：可视化分析的视角

本研究论文系统地总结了交互模型分析的三大类任务：理解、诊断和改进，旨在帮助用户高效解决实际的人工智能和数据挖掘问题，同时探讨了相关未来研究机会。

Feb, 2017

轻量级数据集成：多工作流可信度与数据可观测性导向

现代大规模科学发现需要跨多个计算设施进行多学科合作，其中包括高性能计算（HPC）机器和边缘到云的连续体。综合数据分析在科学发现中起着至关重要的作用，特别是在当前人工智能时代，通过支持负责任的 AI 开发、FAIR、可重复性和用户调节。然而，科学的异构性提出了一些挑战，例如处理多个支持工具、跨设施环境和高效的 HPC 执行。在数据可观察性、适配器系统设计和溯源的基础上，我们提出了 MIDA：一种轻量级运行时多工作流集成数据分析方法。MIDA 定义了针对各种并行系统和机器学习工具的数据可观察性策略和适应性方法。通过可观察性，在后台截取数据流，无需仪器，同时将领域、溯源和遥测数据以运行时的方式整合到一个统一的数据库中，以准备好用户调节查询。我们进行了实验，展示了从 Dask 和 MLFlow 集成数据的端到端多工作流分析，用于材料科学中的真实分布式深度学习用例，在多个环境中平行运行，最多 276 个 GPU。我们展示了在 Summit 超级计算机上，在 1,680 个 CPU 核心上运行高达 100,000 个任务的接近零开销。

Aug, 2023