关键词transformer attention mechanism
搜索结果 - 2
- ICML特征聚合的互信息折衷方法在人脸识别中的应用
本文提出一种利用两种最新的深度人脸识别模型 ArcFace 和 AdaFace 的输出进行聚合的技术,通过利用 Transformer 注意机制来改善人脸识别系统的总体区分能力,并通过引入信息瓶颈原理来确保聚合特征保留最相关和区分能力最强的 - ICLRMega: 移动平均装备的门控注意力
本文介绍了 Mega,这是一种简单,从理论上得到支持的单头门控注意力机制,具有指数移动平均数以将位置感知的局部依赖性的归纳偏差纳入位置不可知的注意力机制中。通过将整个序列有效地分成多个具有固定长度的块以实现线性时间和空间复杂度,该文进一步提