Apr, 2023

基于注意力机制的 Softmax 回归

TL;DR本文探讨了大型语言模型(LLMs)的 softmax 单元,在 LLMs 中的重要性与在具有凸优化问题的中心路径法等其他应用中的使用,同时提出并证明了一种基于贪心算法的 softmax 回归方法,为了在实践中使用此方法提供了理论支持。