BriefGPT.xyz
Ask
alpha
关键词
softmax bottleneck problem
搜索结果 - 1
MM
查询两次:双重混合关注元学习用于视频摘要
本文提出了一种新的框架,即 Dual Mixture Attention (DMASum) 模型,其中 Mixture of Attention layer (MoA) 通过两次自己 - 查询注意实现,可以捕获二阶变化以及初始查询 - 键注
→
PDF
4 years ago
Prev
Next