BriefGPT.xyz
Ask
alpha
关键词
memory accesses
搜索结果 - 2
使用中继注意力实现高效的大型语言模型与长系统提示的服务
通过一种名为 RelayAttention 的算法,该论文提出了一种提高大型语言模型(LLM)服务效率的方法,解决了长系统提示导致的吞吐量 / 延迟瓶颈问题,该算法通过从 DRAM 准确一次性读取输入令牌批次的隐藏状态,从而消除了系统提示的
→
PDF
5 months ago
优化循环神经网络计算的 Delta 网络
本文提出回声神经网络(RNN)中的一种 Delta 网络,它可以利用自然信号的特性从而减少存储和访问成本,并通过优化训练技术来进一步提高准确性和速度,既可以用于 TIDIGITS 音频数字识别基准测试,也可以用于 Wall Street J
→
PDF
8 years ago
Prev
Next