BriefGPT.xyz
Ask
alpha
关键词
transnormerllm
搜索结果 - 2
ICML
不同长度,匀速进行:高效语言建模与闪电注意力
我们提出了闪电注意力(Lightning Attention),这是第一个在固定的内存消耗下保持不同序列长度的训练速度恒定的线性注意力实现。
PDF
a month ago
TransNormer 模型参数适配至 1750 亿
我们提出了 TransNormerLLM,这是第一个基于线性注意力的大型语言模型(LLM),在准确性和效率方面均超过了传统的基于 softmax 注意力的模型。
PDF
a year ago
Prev
Next