- 级联:一种适用于延迟敏感边缘智能的平台
互动智能计算应用越来越普遍,需要优化以降低每个事件的延迟,同时保持高吞吐量和高效的资源管理。Cascade 是一个新的 AI/ML 托管平台,旨在解决这个难题。创新之处包括最小化数据拷贝的兼容传统系统的存储层和最大化响应性能的数据与计算合并 - 基于 LLMs 的在线广告:机遇与挑战
本文探讨了在在线广告系统中利用大型语言模型 (LLM) 的潜力,深入研究了该系统必须满足的隐私、延迟、可靠性、用户和广告商满意度等关键要求。我们进一步介绍了一个 LLM 广告的通用框架,包括修改、竞价、预测和拍卖模块,对每个模块的设计考虑进 - 高效的超列关联语义匹配
利用多尺度相关图的潜力,提出了一种高效的语义匹配方法 HCCNet,通过特征分割和点卷积等操作,实现了在语义匹配上具有先进水平或有竞争力的性能,同时降低了延迟和计算开销。
- EMNLP非自回归流式 Transformer 用于同声翻译
提出了一种非自回归流式 Transformer(NAST)用于同时机器翻译(SiMT),通过通过一种新的编码器和非自回归解码器拓宽了读 / 写策略并降低延迟损失,实验证明 NAST 优于以往自回归 SiMT 基线模型。
- 面向延迟敏感的远程医疗应用的智能 DRL-Based 自适应兴趣区域
本文提出了一种深度强化学习模型,该模型根据预估吞吐量智能地调整感兴趣区域的大小和非感兴趣区域的质量,用以降低视频传输时的延迟,通过延迟和结构相似性指数的比较发现,该模型能够将延迟减少 13% 并保持整体质量在可接受范围内,从而为远程医疗应用 - FBK@IWSLT2023 的直接模型对于同步翻译和自动字幕
该论文描述了 FBK 参与 IWSLT 2023 评估活动中的同时翻译和自动字幕轨道。我们的提交重点是使用直接架构来执行这两项任务:对于同时翻译,我们利用了离线训练模型已经获得的知识,并直接应用策略获得实时推理结果;对于字幕,我们对直接 S - 低延迟同时语音翻译的端到端评估
低延迟语音翻译的评估框架:该研究提出了第一个在真实场景下执行和评估低延迟语音翻译各个方面的框架,通过对音频分割和不同组件运行时间的评估,比较可修订输出模型和固定输出方法,对比级联和端到端系统,并自动评估翻译质量和延迟,并提供网页接口展示低延 - DPBERT:基于动态规划的 BERT 高效推理
本研究提出了一种新的 fine-tuning 策略,使用动态规划来加速 BERT 的推理过程,并通过选择 transformer 层列表的子序列作为输入样本的计算路径,在保持 98% 准确率的同时,将延迟降低到 75%,相比最先进的输入自适 - 云游戏神经视频恢复
本文提出了一种新的方法,通过游戏状态和神经网络技术来恢复云游戏中丢失或损坏的视频帧,以达到更好的游戏体验。
- ACL朝向交互式口述
语音输入越来越重要。我们研究了允许用户使用开放式自然语言中断他们的语音输入以实现编辑的可行性。我们引入了一个新的任务和数据集,TERTiUS,来实验这样的系统。通过使用大型预训练语言模型预测编辑后的文本或预测一个小型文本编辑程序,我们展示了 - 利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练
该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer,并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成,其平均 ASR 延迟为 1 秒,ST 延迟 - 基于数据的 5G 预测延迟:基于网络测量的理论和实验分析
本研究旨在利用移动网络运营商可获得的真实网络数据,对 5G 网络中的预测延迟进行彻底分析,并利用机器学习中的贝叶斯学习和图学习技术进行概率回归、异常检测和预测预测框架测试,并使用来自车辆移动、城市交通等场景的数据进行验证,结果为预测算法在实 - 子图站点硬件 - 软件推断协同设计
该研究论文提出了一种基于权重共享超网络机制的子图固定(SGS)优化方法,通过在动态环境下提供流式查询,实现了机器学习的更好的预测精度和更短的响应时间。
- 利用 $L_1/L_2$ 正则化潜在变量压缩端到端神经网络
提出了一种通过优化模型的浮点运算次数(FLOPs)或设备延迟来进行前馈神经网络(NN)压缩的端到端技术,可以与多种流行的压缩方法一起使用,并且需要比 NAS 方法少得多的训练计算,可以实现大幅度的压缩而仍保持准确性。
- 面向 DNN 推理的多加速器平台的精度感知延迟和能耗平衡
该研究提出 ODiMO,是一种硬件感知工具,用于精细映射芯片上的不同加速器,以并行执行 DNN 的不同层,从而降低推理能量消耗或延迟。在三个流行的数据集 / DNN 对上追求在精度与能量或延迟空间中 Pareto 最优网络,在 DIANA - 具有上下文客户端选择的 V2X 增强联邦学习的合作智能交通系统
本研究提出了一个用于交通运输系统的上下文客户端选择通道,提高了联邦学习的性能,该通道使用车到一切 (V2X) 传输的信息来选择客户端,并根据预测的通信延迟来选择最小延迟的客户端。
- 基于转录器的语音识别加速训练
本文提出一种在训练阶段复制神经网络加速器 (NNA) 运算符以解决低精度推理引起的性能损失,以此减少用户感知的延迟,并在 270K 小时的英语数据上显示了 5-7%的引擎延迟的改善,节省了高达 10%的句子错误率的降低。
- RT-K-Net:重新审视 K-Net 实现实时全景分割
本文提出了新的改进 K-Net 结构的方法,以实现实时全景分割,达到了 60.2% 的最新性能表现。
- 模型变浅:联合学习降低非线性和深度以实现高效隐私推理
本文介绍了一种深度学习优化方法,利用卷积块的 ReLU 敏感性,去除 ReLU 层并将其前后卷积层合并为一个浅层块,从而在不牺牲准确率的情况下,有效减少 ReLU 和线性操作,提高模型的性能及效率。
- 使用 gRPC 提高 DareFightingICE 中 AI 数据传输效率
本文提出了一种新的 DareFightingICE 平台的通信接口,使用 gRPC 替代 Py4J 提高了数据传输的效率并降低了延迟,通过实验验证该接口有效减少了 65% 的延迟、提高了稳定性并消除了当前接口存在的丢帧问题。