- FastPersist:加速深度学习中的模型检查点
FastPersist 通过结合 NVMe 的优化、有效的写并行化以及与独立的训练计算重叠的检查点创建方式,实现了在持久存储中创建检查点的加速,相比基线方法快速 116 倍,并实现了每次迭代检查点的无可忽略开销。
- 基于参数容易受损强化和修剪的卷积神经网络的成本效益容错
本文介绍了一种适用于卷积神经网络的模型级加固方法,通过将纠错直接集成到神经网络中来提高其容错性。该方法与硬件无关且不需要对底层加速器设备进行任何更改。通过分析参数的脆弱性,该方法能够复制一些选择性的滤波器 / 神经元,以便通过高效且稳健的纠 - 面向能效和容错云计算的串并行可靠性冗余分配优化
串行 - 并行冗余是确保云计算服务和系统可用性的可靠方法。这种方法涉及制作相同系统或程序的副本,只有一个副本保持活动。当发生错误时,非活动副本可以立即作为备份使用,从而提供连续的性能和无间断的运行。这种方法被称为并行冗余,也被称为主 - 主 - 深度强化学习下自动驾驶巡逻:学会交流与合作
无人驾驶车辆在巡逻大面积区域时往往需要协同作用。本文提出了一种基于强化的多智能体协作学习方法,通过训练智能体发展出自己的通信协议,在巡逻过程中进行协作。该解决方案通过模拟实验验证,并从多个方面与其他最先进的巡逻解决方案进行比较。
- 事件型预测后缀树
该论文介绍了基于事件的预测后缀树(EPST)算法,该算法受生物学启发,通过基于事件输入的统计学学习在线模型,并能够对多个重叠模式进行预测,具有可解释性、容错性、对事件噪声具有抵抗能力以及一次性学习的能力。
- 弹性分布式训练大型模型的管道模板
Oobleck 采用规划执行的共同设计方法,通过生成一组异构的流水线模板,并实例化至少 f+1 个逻辑上等效的流水线副本以容忍 f 个同时故障,依赖于副本之间已复制的模型状态快速恢复,并保证在 f 个或更少的同时故障后,初始创建的流水线模板 - 简洁易行:不可靠客户端下联邦学习的容错性评估
本文通过对两个实际分类问题的研究,发现在存在一些不可靠设备的情况下,分布式学习算法可以有出乎意料的良好表现。
- 深度强化学习用于网络物理系统中的在线错误检测
提出一种基于深度强化学习的错误检测方法,不仅可以高精度检测错误,而且检测时间非常短,并可以对不同类型的错误进行分类,评估结果表明该方法在准确性和推理时间方面的性能得到了显著提高。
- ICML通过边缘 PRUNE 框架实现容错协同推理
本文提出了基于形式化定义的 Edge-PRUNE 分布式计算框架,旨在为容错协作推断提供灵活的基础设施。实验结果显示了通过协作推断实现的可行推断时间节省及其花费。
- 利用剪枝和差分交叉栅映射提高基于 ReRAM 的边缘 AI 的 DNN 容错性
本文提出了一种差分映射方案,以提高 ReRAM 的容错性,实现无需大规模优化的负载裁剪技术,从而在代表性 DNN 任务中容忍几乎高达一个数量级的故障率,而不需要额外的硬件成本。
- 无服务器计算的容错垫片
本研究针对运行在 Functions-as-a-Service 平台上的程序在修改共享状态时可能导致的数据不一致性问题,提出了一个原子性容错机制 AFT,并验证其在保持原子性能力的同时对存储性能的影响很小。
- MM区块链网络分布式共识协议综述
本文综述现有区块链共识协议,以五个核心组件为框架,分别为区块提议、区块验证、信息传播、区块最终确认和激励机制,分别从算法抽象和安全漏洞等角度进行评估和比较,为区块链开发者和研究人员提供了全面的现状展望和设计参考。
- NIPS对抗生成样本作为一种输入容错问题
针对模型输入的故障容忍度,我们考虑对各种有效输入评估容忍度的基于信息的特征,以解析对抗性样本问题。
- 云中机器学习的分布式 GraphLab 框架
本文介绍了 GraphLab 抽象并将其扩展到更具挑战性的分布式环境中,在保证数据一致性的同时,采取图形扩展 pipelined locking 和数据版本控制,以减少网络拥塞和缓解网络延迟的影响,通过 Chandy-Lamport 快照算 - 单光子源和探测器的效率对于线性光学量子计算来说必须有多高?
提出了一种线性光学量子计算方案,其对不完美的单光子源和低效探测器具有高度鲁棒性,在量子计算的集团态范式中实现了高效的量子计算,并且严重松弛了标准容错结果所能推导出的门槛。