Nov, 2023
超长词注意力近似的一遍流式算法在亚线性空间中
One Pass Streaming Algorithm for Super Long Token Attention Approximation in Sublinear Space
Raghav Addanki, Chenyang Li, Zhao Song, Chiwun Yang
TL;DR部署大型语言模型在涉及长文本的流式应用中面临着内存消耗和时间复杂度的挑战。本文介绍了一种新的算法,通过节约存储空间并保持较低的错误率,在流式应用中高效地处理大型语言模型。