BriefGPT.xyz
Ask
alpha
关键词
language model inference
搜索结果 - 3
块级 Transformer:全局到局部的语言建模以提高快速推理能力
通过采用分层的全局到局部建模的方法,本研究提出了块变压器架构,以缓解自注意力所带来的推理瓶颈。通过在较低层应用快速局部建模和在较高层应用全局建模,以减轻与全局上下文相关的计算代价,并通过聚合输入令牌来降低较低层的计算代价,在没有全局注意力瓶
→
PDF
a month ago
单一背景大批量采样的分叉注意力
我们的研究提出了分叉注意力,这是一种用于单一上下文批次采样环境中的语言模型推断的方法。该方法通过将注意机制在增量解码过程中划分为两个不同的 GEMM 操作,分别聚焦于预装填的 KV 缓存和解码过程,以降低冗余的内存 IO 成本,从而实现精确
→
PDF
4 months ago
SMoT: 状态机思考
利用专家知识增强语言模型的问题解决能力,提出了一种新的范式 SMoT,通过预定义的状态机为语言模型提供高效推理路径,消除无效的探索,实验结果显示 SMoT 在推理任务中表现出了卓越的准确性,高达 95%,超过了当前最先进的基准模型。
PDF
6 months ago
Prev
Next