- 使用部分假设选择实现低延迟序列到序列的语音识别和翻译
本文针对编码器 - 解码器模型在语音翻译等序列任务中的精度和延迟问题,提出了三种延迟降低技术,包括使用单向注意力机制,实验证明该方法可以降低 83% 的延迟并牺牲 1% 的 WER(相对于离线转换)。同时还探讨了其在低延迟语音翻译上的应用。
- ACL利用及时的纠正进行机会解码的同时翻译
本研究提出了一种 Opportunistic Decoding 技术,该技术以适当速度纠错并每步生成额外单词以保证跟踪最新信息,进而实现了高质量的同声传译和显著降低的延迟。
- 高速准确流式端到端自动语音识别
本文提出了使用延迟惩罚技巧和最小词错误率训练技术来减少端到端模型延迟以提高其质量的方法,并在语音识别方面展示出重要改进。
- 流式序列到序列语音识别的最小延迟训练策略
本文研究在线语音识别中的延迟问题,探究了利用硬对齐来进行多任务学习、预训练、合理删减对齐路径和直接减少预期延迟损失等多项方案,成功地实现了对延迟的缩减,并在某些情况下提高了语音识别准确性。
- 通过模型冻结加速深度学习推理
通过缓存中间层输出,可以避免运行所有 DNN 层,从而减少预测延迟,本文介绍了 Freeze Inference 系统,它通过在每个中间层引入逼近缓存,并讨论如何减小缓存大小和提高缓存命中率,未来的挑战也被提出。
- 优秀特征匹配:实现低延迟、准确、稳健的 VO/VSLAM
该研究通过改进基于特征的 VSLAM 算法,提出了一种好的特征匹配方法,通过确定性选择和随机加速的组合减少了算法的延迟,并在多个基准测试和计算硬件上进行了全面的评估,保留了准确性和稳健性。
- EMNLP基于前缀到前缀框架的增量式文本转语音合成
利用前缀到前缀框架构建的神经增量文本转语音系统,实现了在线语音合成,从而将计算延迟和输入延迟分别降至 O (1) 水平。
- ICCVPatchwork: 基于分块注意力网络的视频流高效物体检测和分割
本文提出一种针对延迟敏感应用的硬关注机制,通过选择和处理框架的一个小子窗口,预测整个框架的结果,使得该方法在不影响准确性的前提下减少了大约四倍的延迟,并且使用特殊的内存单元和策略训练策略进一步提高了性能。
- 通过二步剪枝改进深度学习设备 - 边缘合作推理
本文提出了一种高效、灵活的 DNN 分区方法,通过迭代删除不重要的卷积层过滤器进行剪枝,从而减少移动设备的无线传输负担或总计算负担,并能够自动选择满足各种延迟和准确性要求的修剪过的模型。实验表明,与未剪枝的原始 DNN 模型相比,该框架在传 - 低延迟联邦边缘学习的宽带模拟聚合(扩展版)
该论文提出了一种低延迟多接入方案,利用模拟聚合和多接入通道的叠加特性,实现了快速聚合模型的更新并使边缘学习具有更好的性能表现和低延迟。
- 实例感知神经架构搜索
本文提出了一种基于实例的神经架构搜索方法 InstaNAS,通过搜索一种 “架构分布” 而不是单一的神经架构,确保难以处理的样本使用复杂的神经架构来减少前处理时间,并在搜索空间中验证表明,与 MobileNetV2 相比,在多个数据集上具有 - 云系统延迟降低的高效冗余技术
在云计算系统中,确定冗余策略的适用条件和实现方式是降低时延和成本的关键。通过对任务服务时间分布的对数凹凸性进行研究,该文设计出一种通用的冗余策略,在最大化降低时延和最小化成本之间达到了很好的平衡。
- 异构网络中的内容级别选择性卸载:多臂赌博优化和遗憾界限
本文研究了在移动通信下行数据中进行内容级别选择性卸载的问题,将流行的内容存储在无线信息站终端的高速缓存存储器中,直接从信息站下载存储的内容,以减少蜂窝网络的延迟和负载,并利用多臂赌博问题及切换成本等方式进行最优的缓存内容放置来学习流行度模型