BriefGPT.xyz
Ask
alpha
关键词
attention algorithm
搜索结果 - 2
路径积分形式下无限上下文转换器中的折叠上下文浓缩
利用生成式预训练变形器的注意力算法和神经网络在路径积分形式上进行推广,将变形器的作用解释为令牌状态的时间演变,并建议在相同时间内,所有关键 - 令牌状态都可以与查询令牌状态进行关注,从而通过使用有限的序列大小的低内存来保持分离序列之间的无限
→
PDF
2 months ago
MM
CUDA 内核融合研究案例:在 NVIDIA Hopper 架构上使用 CUTLASS 库实现 FlashAttention-2
我们提供了 FlashAttention-2 前向传递的优化实现,使用了自定义融合的 CUDA 内核,以适应 NVIDIA Hopper 架构,并使用开源的 CUTLASS 库编写。在此过程中,我们解释了将在线 softmax 与连续的 G
→
PDF
7 months ago
Prev
Next