容错深度学习：层次视角

Apr, 2022

Fault-Tolerant Deep Learning: A Hierarchical Perspective

Cheng Liu, Zhen Gao, Siting Liu, Xuefei Ning, Huawei Li...

TL;DR本综述从模型层、架构层、电路层和交叉层等不同角度，全面调查故障容错深度学习设计方法，以应对深度学习在自动驾驶和机器人等关键领域的可靠性挑战。

Abstract

With the rapid advancements of deep learning in the past decade, it can be foreseen that deep learning will be continuously deployed in more and more safety-critical applications such as →

deep learning reliability autonomous driving robotics fault-tolerant design

发现论文，激发创造

跨层优化的容错深度学习

提出了一种基于容错深度学习加速器的方法，通过对深度学习处理组件的建筑层和电路层进行选择性保护，降低由于冗余计算造成的开销，并通过优化设计参数在算法层、建筑层和电路层上减少硬件资源消耗，同时满足可靠性、准确性和性能等多个用户约束。

Dec, 2023

零开销的故障感知设计和训练以提高 DNN 的可靠性

本文提出一种针对深度神经网络在训练和模型设计时提高其可靠性的解决方案，旨在解决硬件故障导致对模型预测出现错误等问题。在研究中通过 DNN 重新设计、重新训练等方式，提出三种零附加成本的解决方案，可以在一定程度上提高 DNNs 对于瞬态故障的可靠性，并通过广泛的消融研究量化了每种硬化组件的性能提升。

May, 2022

深度学习应用的弹性：分析和强化技术的系统调查

机器学习（ML）是一种有效的人工智能（AI）技术，正在广泛应用于多个领域，作者通过对 163 篇科学文章的综述研究，系统地调查了深度学习（ML 技术之一）对硬件错误的弹性，明确阐述了这一文献流的优势和不足，并提出了未来的研究方向。

Sep, 2023

基于固有安全设计和运行时错误检测的安全关键应用深度学习认证框架

基于深度学习的认证在安全关键应用中是一个非常重要的问题，本文通过研究使用于航空等安全关键领域的实际问题，调查机器学习研究社区中针对深度学习系统鲁棒性和可靠性验证的方法学，并提出了一个新的基于安全设计和运行时错误检测的深度学习认证框架。

Mar, 2024

深度学习系统中实际故障分类

本文介绍了深度学习系统中的故障分类法，基于从 GitHub、Stack Overflow 和 20 个研究人员和从业者采访中获得的 1059 个人工分析的文献，以及采用 TensorFlow、Keras 和 PyTorch 等流行深度学习框架的项目。通过调查证实，几乎所有故障类型（13/15）至少被 50％的调查参与者体验过。

Oct, 2019

故障预测中深度工业迁移学习调查

本文是关于利用深度学习技术处理故障预测的应用场景、数据集不足和算法难定制等问题，探讨应用迁移学习和连续学习的方法来解决现实场景中故障预测问题的自适应性，并且为未来的研究提供最佳实践和通用的数据对比基准。

Jan, 2023

面向安全关键深度神经网络的可扩展验证

本篇论文介绍了在安全重要应用领域中使用深度神经网络的问题，针对其可靠性和安全性的担忧，提出了采用形式化验证来保证其运行符合预期，并通过两个方向，即设计可扩展性的验证技术和识别可验证的深度学习系统的设计选择来缓解这一挑战。

Jan, 2018

利用深度神经网络的关键系统安全框架

本文提出了一个基于贝叶斯分析的安全性论据框架，该框架使用运行数据和最新的深度学习验证技术，支持多种形式的预测，并针对实际的关键系统进行了建模和验证。

Mar, 2020

DeepFT: 基于自监督深度替代模型的容错边缘计算

提出一种新的建模方法 DeepFT，通过优化任务调度和迁移决策，采用深度代理模型和基于自我监督学习的协同模拟，来预测和诊断系统中的故障，从而在资源有限的边缘计算中实现高可靠性

Dec, 2022

基于深度学习分类器的图像新型故障检测与分级标签

现代故障分类系统中的一个重要特征是在面对以前未见过的故障类型时能够警示系统。本文考虑了基于深度神经网络的故障分类器的未知故障检测能力。具体而言，我们提出了一种方法，即在可用的情况下，使用有关故障分类法（fault taxonomy）的标签来提高未知故障检测性能，而不损失模型性能。为实现这一目的，我们提出利用软标签技术来改进先进的深度新颖故障检测技术，并提出用于在线新颖故障检测的层次一致的检测统计量。最后，我们在热轧钢生产过程中的检测图像中展示了对新颖故障检测的提高性能，结果在多个场景和基准检测方法中得到了良好的复制。

Mar, 2024