Mar, 2024

DeFT: 带有 IO 感知的快速树注意力的树搜索型 LLM 推理

TL;DR通过树搜索解码,DeFT 提出了一种基于 IO 的树注意力算法,实现了内存高效的注意力计算,加速了端到端推理任务的运行速度。