- ConvoCache:智能重用聊天机器人回复
ConvoCache 是一个会话缓存系统,通过在过去找到语义上相似的提示并重复使用响应来解决口语聊天机器人中慢且昂贵的生成式 AI 模型的问题,可以在平均延迟为 214ms、使用缓存回答 89% 的提示的情况下应用 90% 的 UniEva - LLMLingua-2: 数据去噪 以提升高效及精确的无要求任务的提示压缩
通过使用数据蒸馏方法,我们提出了一种基于 Transformer 编码器的令牌分类问题的任务无关提示压缩方法,以更高的效率压缩提示,降低延迟。
- 单一背景大批量采样的分叉注意力
我们的研究提出了分叉注意力,这是一种用于单一上下文批次采样环境中的语言模型推断的方法。该方法通过将注意机制在增量解码过程中划分为两个不同的 GEMM 操作,分别聚焦于预装填的 KV 缓存和解码过程,以降低冗余的内存 IO 成本,从而实现精确 - 关注、蒸馏和表格化:面向实用的基于神经网络的预取
提出了一种基于表格化的新方法,通过将注意力机制模型的昂贵矩阵乘法转化为快速查找表的层次结构,显著降低了模型复杂性和推理延迟,并在保持预测准确性的情况下进行了内存访问预测。该方法在性能方面超过了基于规则的最先进预取器,且与基于神经网络的最先进 - 扩散模型中通过重用注意力图实现快速推理
通过结构化地重用注意力映射,我们的训练无关方法在保持样本质量的同时,显著降低了文本到图像扩散模型的迭代过程中的延迟。
- LongLLMLingua:通过提示压缩加速和增强长背景下的 LLMs
通过压缩提示信息,提高大型语言模型对关键信息的感知能力,从而解决高计算 / 财务成本、延迟时间长和性能劣势等问题。在各种长篇上下文场景下,通过使用 LongLLMLingua 压缩的提示信息,大型语言模型的性能得到提高,成本降低,以及端到端 - 边思考边说话:文本生成期间的实时流式语音合成
LLM2Speech 架构用于通过 LLM 生成语音,以减少显著的延迟并实现自然对话。
- 流式端到端语音识别序列转导器的最小延迟训练
本文提出了一种新的训练方法,通过明确建模和减少序列变换器模型的延迟来达到最优的延迟和准确性均衡,实验结果表明,所提出的最小延迟训练方法将有助于将哈尔滨工业大学卡苏耶延迟从 220ms 降低到 27ms,并在误识率降低了 0.7% 的同时,优 - 快速高效语音系统统一的端到端语音识别和端点检测
通过引入 “开关” 连接,将语音识别(ASR)和端点探测(EP)训练为单一的端对端(E2E)多任务模型,并利用 ASR 音频编码器的信息来提高 EP 质量,以此来减少延迟并改善连续语音识别的识别率。
- TrimTail: 简单但有效的声谱长度惩罚实现低延迟流式自动语音识别
本文提出了 TrimTail 方法,一种简单而有效的发射规则化方法,用于改善流式 ASR 模型的延迟。该方法可以在输入话语的频谱上直接应用长度惩罚以降低延迟,并可与各种模型结构和训练模式有效地结合使用。在几个数据集上进行测试表明,使用 Tr - 边缘智能加速元宇宙发展:元宇宙与移动边缘计算的融合
本研究提出了一种雾边混合计算架构,利用边缘设备计算能力来执行与 Metaverse 实体相关的计算成本,以减少 Metaverse 应用程序基于云的计算模式的延迟,并证明了实验结果可以将延迟降低 50%。
- CUSIDE:基于分块、模拟未来上下文和解码的流式 ASR
本文提出了一种新的框架(Chunking、模拟未来内容和解码,CUSIDE)用于流式语音识别,引入了模拟模块来递归模拟未来上下文帧,通过自监督损失与 ASR 模型联合训练,证明在维持识别准确度的同时大幅降低延迟,并在 AISHELL-1 数 - 多语言同声传译
研究了一种在会议或会谈中进行同时语音翻译的应用程序,并探讨了使用在线口语翻译模型建立在线口语翻译系统的一般方法以及针对这种方法采用不同的语言和体系结构的多语种模型与端对端模型的能力。所提出的方法通过对 TEDx 语料库的实验证明,相似的潜在 - 一个时间步长就足够了:使用超低延迟训练脉冲神经网络
本文提出了一种针对脉冲神经网络的迭代初始化及重训练方法 (IIR-SNN) 来进行单次推断,在保证精度的情况下将时延降到了极致,实验结果表明,该方法不仅具有可比较的性能,而且比同类算法在能效方面提高了 25-33 倍,相当于标准深度神经网络 - 寻找可控图像恢复网络
通过神经架构搜索技术,在两个阶段进行修剪(通用和特定任务),以实现图像修复中多种图像效果的高效生成,并大幅减少 FLOPs 和延迟,从而大大提高任务效率。
- FastEmit: 序列级发射正则化的低延迟流式自动语音识别
本研究提出一种名为 FastEmit 的序列级发射规则方法,该方法可在训练转导模型时直接对序列级概率进行延迟规则化,从而在不需要任何对齐的情况下更适合流式 ASR 的序列级优化,有效降低音频识别的延迟并提升精度。
- EMNLP自适应训练的流畅低延迟语音同传翻译
提出了一种名为 Self-Adaptive Translation (SAT) 的方法,实现同时语音翻译。该方法通过灵活调整翻译的长度,以适应不同的源语音速率,从而在保持近似的翻译质量的前提下,显著降低了延迟,生成了更流畅自然的目标语音。
- EMNLP基于向量 - 向量 - 矩阵架构的硬件感知框架:用于 NLP 应用中的低延迟推断
提出一种名为 VVMA 的新型向量 - 向量 - 矩阵体系结构,通过利用专用硬件,降低了神经机器翻译和转换模型的推理时间,并使模型参数和 FLOP 数量减少,同时保持较高准确性。
- 是滤波剪枝,还是层剪枝,这是一个问题
本文提出了 LayerPrune 框架,相较于传统基于 filter 的剪枝方法,LayerPrune 基于不同的剪枝指标实现了更高的延迟降低,并使用相同的 filter 重要性判定剪枝最不重要的层,较好地平衡了准确率和删除率。
- 使用部分假设选择实现低延迟序列到序列的语音识别和翻译
本文针对编码器 - 解码器模型在语音翻译等序列任务中的精度和延迟问题,提出了三种延迟降低技术,包括使用单向注意力机制,实验证明该方法可以降低 83% 的延迟并牺牲 1% 的 WER(相对于离线转换)。同时还探讨了其在低延迟语音翻译上的应用。