- SWAT:基于 FPGA 的可扩展和高效窗口注意力 Transformer 加速
提出了一种基于 FPGA 的加速器设计,SWAT,通过最大程度地利用稀疏性实现可扩展的性能,相比基准 FPGA 加速器,在延迟和能效方面改进了 22 倍和 5.7 倍,并且比基于 GPU 的解决方案提高了 15 倍的能效。
- 揭示基于 LLM 的中文开源数据集上的 ASR 潜力
基于大型语言模型的自动语音识别研究,探索了多种配置下的语音编码器、语言模型和投影模块对 ASR 性能的影响,采用三阶段训练方法实现了在中文数据集上的最佳表现,为未来 LLM 基于 ASR 系统的研究提供了实证基础和性能优化的见解。
- Proteus:在图优化过程中保护模型的机密性
Proteus 是一种新机制,可以在保护模型架构的同时进行模型优化,通过将计算图分割为子图并将每个子图隐藏在生成的大量逼真子图池中,有效地隐藏模型,确保保密性并且不影响性能优化机会。
- 面向公平性的共享微移动服务的运营和控制的强化学习方法
在共享微移动服务的运营和控制中,通过 Q 学习算法在机器学习系统中平衡性能优化与算法公平性,以实现在不同站点类别中的公平结果。
- cedar:可组合和优化的机器学习输入数据流程
cedar 是一个编程模型和框架,允许用户轻松构建、优化和执行输入数据管道,并在六个不同输入数据管道中与 tf.data、tf.data 服务、Ray Data 和 PyTorch 的 DataLoader 相比,平均获得 2.49 倍、1 - Smuche:同态加密中的标量 - 乘法缓存
在本研究中,我们引入了一种称为 “Smuche” 的创新缓存技术,该技术可以独立于任何参数,并且通过对单个缓存密文应用标量乘法以及引入全新且恒定时间的随机性,充分利用恒定时间结构的内在特点,从而解决了发现的限制,并优化了实践场景中同态加密的 - ACPO:基于 AI 的编译器驱动程序优化
ACPO 是一个提供给 LLVM 的新框架,用于通过机器学习模型进行编译器驱动的程序优化。实验证明,ACPO 在 Polybench、Coral-2、CoreMark 和 Graph-500 上相比于 LLVM 的 O3 优化,Loop U - 大型语言模型推理的硬件评估框架
通过 LLMCompass 硬件评估框架,本研究提出了性能优化和成本效益的硬件设计选择,以实现大规模语言模型的民主化。
- 基于贝叶斯神经网络的实用布局感知模拟 / 混合信号设计自动化
高成本模拟一直是实际模拟 / 混合信号设计自动化的瓶颈。我们提出了一种基于学习的算法,能够使用少量数据进行训练,因此适用于模拟成本高的任务。我们的高效算法解决了后布局性能优化问题,同时也解决了原理图级别调整问题。为了实现高效优化,我们使用贝 - Tessel:通过灵活的调度搜索提升大型 DNN 模型的分布式执行
Tessel 是一个自动化系统,通过搜索高效的分布式深度神经网络训练和推理的调度,为不同的运算符放置策略实现了性能优化,从而显著提高了训练和推理的性能。
- 提示工程师的提示工程
通过构建元提示(meta-prompt)从而更有效地引导大型语言模型(LLMs)进行自动提示工程,进而优化其性能。
- 基于基础模型与异构联邦学习的融合
资源感知的联邦基础模型(RaFFM)引入了针对联邦学习场景的特殊模型压缩算法,实现对给定的基于 Transformer 的基础模型的动态缩放,以适应网络边缘的异构资源约束。实验结果表明,RaFFM 在资源利用效率上显示出显著优势,并使用较少 - R2GenGPT:使用冻结 LLM 的放射学报告生成
为了有效地弥合 LLMs 和 R2Gen 任务之间的模态差异,提出了一种新颖的解决方案 R2GenGPT,通过高效的视觉对齐模块将视觉特征与 LLMs 的词嵌入空间对齐,使得以前静态的 LLMs 能够无缝集成和处理图像信息,从而优化 R2G - 通过实时内核优化加速在各种边缘客户端上的浏览器内深度学习推理
本文介绍了一个用于在浏览器中进行深度学习推断的系统,利用新颖的网络编程技术和自动生成优化内核的方法,在保持或提升性能的同时,显著降低了内核生成时间和调优成本。通过在各种设备上的评估,结果表明该系统在不同模型上比基准测试快 8.2 倍。
- 在边缘设备上快速高效的目标跟踪:一项测量研究
边缘视频分析系统中的目标跟踪是一项重要功能。本文研究了边缘目标跟踪的性能问题和边缘优化机会,并提出了一种名为 EMO 的边缘特定性能优化策略,通过窗口和相似度优化实现了实时目标跟踪的加速。大量实验证明我们的 EMO 方法在运行时间性能和跟踪 - 缓存操作重排:快速 GNN 训练的统一视角
图神经网络(GNNs)在处理结构化图形数据和解决节点分类、图分类以及聚类等任务方面是一个强大的工具。本研究通过提供 GNN 计算、输入输出和内存的统一视角,分析了图卷积网络(GCN)和图注意力(GAT)层的计算图,提出了替代的计算策略和自适 - ICCVMAS:面向资源高效的联邦多任务学习
提出一种用于协调和训练多个同时进行的联邦学习任务的系统,名为 MAS(Merge and Split),通过多任务架构将多个任务合并为一个任务进行训练,并根据任务之间的亲和度在训练过程中将其拆分成两个或更多任务继续训练,实验证明 MAS 方 - 用于 GNN 加速的输入敏感型稠密 - 稀疏原始组合
本论文提出了一种新的稠密和稀疏矩阵基元的选择和组合方法,使用自适应策略来选择最佳组合,以加速在各种输入图形和 GNN 嵌入大小上的表现,并在与经过良好调整的基线的比较中展示出不同的协同表现优势。
- 离线强化学习中的自动折衷适应
本文提出一种改进的离线强化学习算法 - AutoLION,该算法可以在运行时自适应地调整策略行为,利用自动驾驶寻找正确的权衡参数来平衡保守性和性能优化。
- 方阻交叉验证:一种精确高效的超参数调优方法
本文介绍了一种名为 Blocked Cross-validation(BCV)的新方法,在超参数调整方面比传统的 Repeated Cross-validation(RCV)提供更精确的错误估计,即使运行的数量显著减少,也能实现更高的准确度