- Helix: 基于异构 GPU 上的最大流进行大型语言模型的分布式服务
介绍了一种名为 Helix 的分布式系统,用于在异构 GPU 集群上提供高吞吐量和低延迟的大语言模型(LLM)服务。通过将 LLMs 的推理计算以最大流问题形式表示为有向加权图,使用混合整数线性规划(MILP)算法来发现高度优化的策略,从而 - CPU 上的低延迟实时语音转换
我们将之前的音频处理和生成神经网络的结构应用于实时的多对一声音转换任务中,得到了具有低延迟和低资源使用的模型 LLVC(低延迟低资源声音转换),在 16kHz 比特率下延迟不到 20 毫秒,在消费级 CPU 上运行速度接近实时的 2.8 倍 - 脉冲神经网络目标检测的低延迟
针对物体检测任务,通过改善 SNN 与 ANN 的一致性,提出了结构替换、ANN 激活量化和残差修复的方法,与之前的工作 Spiking-YOLO 相比,实验证明该方法具有更高的准确性和更低的延迟,并展示了 SNN 处理脉冲信号的优势。
- 通过潜在对齐分段实现长篇连贯语音翻译
提出一种新的分割方法,用于低延迟的端到端同时语音翻译,并且在多种语言对和领域数据中显示出具有先进水平的质量。
- EEGSN: 基于图峰值神经网络的脑电解码高效低延迟实现
我们提出了一种基于图的神经脉冲网络结构来进行多通道脑电图分类的方法(Graph Spiking Neural Network architecture for multi-channel EEG classification)。相较于目前最 - CVPR递归视觉 Transformer 用于事件相机目标检测
本文提出了使用 Recurrent Vision Transformers 来实现基于事件相机进行低延迟目标检测的创新方法,通过使用卷积先验、本地和扩张全局自我关注,以及循环时间特征聚合等方法,在不损失性能的情况下降低了推理时间,并在 Ge - PARIS 和 ELSA:一种用于可重构多 GPU 推理服务器的弹性调度算法
本研究探讨了 NVIDIA 最新发布的 Ampere GPU 体系结构在云机器学习推理系统中的应用,并提出了一种适用于异构 GPU 服务器部署的复杂划分算法和弹性调度算法,实现低延迟和高 GPU 利用率的平衡。
- 基于注意力机制的实时无人机语义通信强化学习
本文研究了移动地面用户的空地超可靠低延迟通信问题,提出了一种名为 GAXNet 的多智能体深度强化学习框架,通过避免无人机之间的碰撞来控制多个无人机,从而实现低误差率和低延迟。
- 重新审视批量归一化,为了从头开始训练低延迟的深度脉冲神经网络
该研究论文提出了一种名为 BNTT 的时域批量归一化技术,用于 SNNs 的训练,通过不同时间间隔上的可学习参数,允许神经元控制它的脉冲率,从而实现低延迟和低能耗的训练,首次在复杂数据集上从无到有地训练深层 SNNs,并使用 BNTT 中的 - 具有移动音频流网络的高效低延迟语音增强
提出了适用于移动设备和计算能力受限应用的移动音频流网络 (MASnet),用于有效的低延迟语音增强。MASnet 将连续的嘈杂帧转换为复值比率掩码,然后将其应用于相应的嘈杂帧。与类似的全卷积架构相比,MASnet 采用了深度和点卷积,大大减 - GRIP: 图神经网络加速器架构
GRIP 是一个用于低延迟推断的图神经网络加速器体系结构,它将 GNN 推断分为一组固定的边界和顶点中心执行阶段。它使用高性能矩阵乘法引擎以及专用的权重存储器来提高重用性,并通过多个并行预取和约简引擎来缓解存储器访问的不规则性。它支持几个 - 在线人脸活体检测中提高时间一致性
本研究旨在改善在线人脸活体检测系统,提高下游人脸识别系统的安全性。提出了一种基于时间一致性的简单而有效的解决方案,包括在训练阶段引入时间一致性约束的方法和开发出一个无需训练的非参数不确定性估计模块,以适应各种场景的演示攻击,并且在计算复杂度 - 使用 Scout 网络的低延迟端对端流式语音识别
本文提出了一种基于 Transformer 模型的低延迟流式语音识别方法,其中包含了一个侦察网络和一个识别网络,该方法在 Librispeech 的测试数据集上实现了最佳性能 (2.7/6.4 WER) 和短暂的 639ms 延迟。
- 无线边缘计算与延迟和可靠性保证
该文章介绍了边缘计算的概念和其在 5G 无线系统和关键应用领域的重要性,讨论了需要提供的计算和决策服务以及相关挑战,并探索了几个关键案例和未来的前景。
- 使用事件和图像帧进行非同步光度特征跟踪
该论文介绍了一种利用事件相机和标准相机的互补性来实现低延迟跟踪视觉特征的方法,通过提取标准相机的特征和利用事件相机的低延迟更新,该方法能够在各种场景下产生比现有技术更准确、更长的特征跟踪。
- CVPR低延迟视频语义分割
本研究提出了一种视频语义分割框架,该框架利用特征传播模块和自适应调度器相结合的方法,通过时间间隔自适应地融合特征并根据准确性预测动态分配计算量,以实现低延迟和高语义分割质量。实验结果表明,在与现有模型的比较中,该模型在 Cityscapes - 迈向低延迟和超可靠的虚拟现实
本文探讨了超可靠、低延迟虚拟现实应用的挑战和驱动因素,并示范了利用 mmWave 通信、边缘计算和预测性缓存的智能网络设计实现无线 VR 的未来愿景。
- Clipper: 一个低延迟的在线预测服务系统
本文介绍了 Clipper,一个用于部署机器学习模型的通用低延迟预测服务系统,通过引入缓存、批处理和自适应模型选择技术,Clipper 提高了在线服务应用的预测时延、准确性和吞吐量,并可支持模型组合和在线学习来提高准确性和鲁棒性。与 Ten - 渐进式分析:一种探索数据分析的计算范式
介绍了一种名为 Progressive Computation for Data Analysis 的计算范式,通过以渐进的方式执行计算,将渐进计算带到编程语言层面,为探索性数据分析系统的程序员提供了一个低延迟的保证。
- 使用基于字符级递归神经网络实现的在线关键词检测
本文提出了一种基于字符级递归神经网络(RNN)的上下文感知关键词检测模型,用于连续语音中的口语项检测,通过端到端训练生成字符和单词边界标签的概率。该模型无需音标转录、Senone 建模或系统词典,可以通过编辑基于文本的关键词列表轻松添加和修