评估和增强深度推荐系统对抗硬件错误的健壮性

Jul, 2023

评估和增强深度推荐系统对抗硬件错误的健壮性

Evaluating and Enhancing Robustness of Deep Recommendation Systems Against Hardware Errors

Dongning Ma, Xun Jiao, Fred Lin, Mengshi Zhang, Alban Desmaison...

TL;DR深度推荐系统在不同领域的硬件错误下的鲁棒性研究及其三种错误缓解方法的评估与应用。

Abstract

deep recommendation systems (DRS) heavily depend on specialized HPC hardware and accelerators to optimize energy, efficiency, and recommendation quality. Despite the growing number of hardware errors observed in

发现论文，激发创造

深度神经网络硬件故障攻击中的无恩劣化

本研究探讨了硬件攻击给神经网络的参数带来的影响及其耐受能力，发现大部分模型对单一位比特翻转都有10%以上的分类精度下降，结果揭示了神经网络鲁棒性的局限性并提出了未来的研究方向。

Jun, 2019

Facebook基于DNN的个性化推荐系统的体系结构影响

这篇论文介绍了一组用于个性化推荐的实际生产规模的深度神经网络，以及与此相关的性能度量，以促进研究和推动未来规模推荐的系统设计和优化，文中分析了推理延迟、批处理和推理的协同作用、推荐模型的不同优化策略。

Jun, 2019

RGRecSys：推荐系统稳健性评估工具包

本文提出了一种综合的鲁棒性评估方法，针对在线技术中广泛存在的推荐系统，研究数据稀疏性和个人信息注入攻击等多种情形下的鲁棒性，并提出了一套评估工具Robustness Gym for RecSys(RGRecSys)，可以快速、统一地评估推荐系统模型的鲁棒性。

Jan, 2022

ISimDL：用于深度学习鲁棒性评估的重要性采样驱动故障注入模拟加速

本文提出ISimDL这一新的方法，通过神经元灵敏度生成重要性抽样型的错误场景，以提高对深度学习系统鲁棒性的分析效率，并基于此提出一种名为Fault Aware Training（FAT）的新方法，该方法可减少12倍以上的精度降低开销。

Mar, 2023

深度神经网络硬件可靠性评估方法的系统文献综述

本文通过系统性文献综述的方式，对深度神经网络的可靠性评估方法进行了归纳总结，提出了故障注入、分析以及混合方法等三种可靠性评估方法，评估了这些方法的优缺点和应用场景，同时也指出了目前研究中存在的问题和挑战。

May, 2023

特别会议：DNN加速器的逼近和容错性

本文研究了DNN加速器的逼近计算和容错能力，提出使用逼近算术电路代替昂贵的故障注入检测，并开发了GPU模拟方法，同时通过网络故障的传播和掩蔽来实现精细化容错分析

May, 2023

机器学习系统可靠性的整体评估

该研究提出了一个综合评估机器学习系统可靠性的方法，侧重考虑诸如敌对攻击、性能下降以及算法技术等方面的问题，并对500多个模型进行了分析，为未来的研究和发展提供了指导。

Jul, 2023

ERASE：深度推荐系统特征选择方法的基准测试

该研究论文提出了ERASE，一种用于深度推荐系统的全面特征选择基准，通过对11种特征选择方法进行综合评估，涵盖了传统和深度学习方法，跨越四个公共数据集、私人工业数据集和一个真实的商业平台，取得了显著的改进。

Mar, 2024

机器学习鲁棒性：入门指南

本章探索了机器学习（ML）中鲁棒性的基本概念及其在建立可信人工智能（AI）系统中的关键作用。讨论从详细定义鲁棒性开始，描绘了ML模型在各种意外环境条件下保持稳定性能的能力。通过不同视角剖析ML鲁棒性：与泛化能力的互补性，作为可信AI的要求，对抗性与非对抗性方面，定量评价指标，以及可重复性和可解释性等指标。本章深入探讨了影响鲁棒性的因素，如数据偏差、模型复杂性和不规范的ML流程的陷阱。从广泛的角度调查了鲁棒性评估的关键技术，包括对抗性攻击，包括数字和物理领域。它还涵盖了非对抗性数据转移和深度学习（DL）软件测试方法的细微差别。讨论进一步探索了增强鲁棒性的改进策略，从以数据为中心的方法如去偏和增强开始。进一步的研究包括各种以模型为中心的方法，如迁移学习、对抗训练和随机平滑等。最后，讨论了训练后方法，包括集成技术，修剪和模型修复，作为提高模型对不可预测因素的适应性的经济有效策略。本章强调现有方法对ML鲁棒性的估计和实现所面临的挑战和局限性，并为未来关于这一关键概念的研究提供了洞见和方向，作为可信AI系统的先决条件。

Apr, 2024

通过双层自适应损失压缩加速深度学习推荐模型训练

DLRM模型是一种先进的推荐系统模型，由于其大尺寸，需要使用多个设备/GPUs进行高效训练。为了减少训练时间中通信的瓶颈，我们引入了一种利用有误差限制的有损压缩方法，以降低通信数据大小并加速DLRM训练。我们开发了一种新颖的有误差限制的有损压缩算法，并通过对嵌入数据特征的深入分析来实现高压缩比。此外，我们引入了一个双层自适应策略，涵盖了表格和迭代两个方面的误差限制调整，以平衡压缩带来的好处和对准确性的潜在影响。我们还针对GPU上的PyTorch张量优化了我们的压缩器，最小化了压缩开销。评估结果表明，我们的方法实现了1.38倍的训练加速，几乎不影响准确性。

Jul, 2024