Jun, 2024

多层可学习的多模态任务注意力掩码

TL;DR通过引入可学习的注意力掩码(LAM)来全局调控注意力图并优先选择序列中的关键标记,该方法在 BERT-like transformer 网络中充分捕捉了标记之间的关联,通过对多层版本的 LAM 的扩展适应了 Transformer 网络各层的不同信息,实验证明该方法在不同数据集上有效地提升模型性能并减少冗余计算,从而对复杂情景理解方面,如电影理解等,取得了显著的进展。