BriefGPT.xyz
Ask
alpha
关键词
inference time latency
搜索结果 - 2
CHAI: 集群化头部注意力用于高效的 LLM 推断
基于大型语言模型的多头注意力机制的高冗余性,提出了一种新的聚类头自注意力机制 (CHAI),能够在运行时显著降低模型的存储和计算需求,从而减少内存需求 21.4% 和推理时间延迟最多 1.73 倍。
PDF
4 months ago
ICLR
短期记忆卷积
本文提出了一种名为 Short-Term Memory Convolution(STMC)的卷积神经网络方法,用于音频领域中的实时处理,该方法能够以低延迟比 LSTM 网络更稳定快速地进行训练和推理,实现了语音分离和声场分类的更快速度和更高
→
PDF
a year ago
Prev
Next