ICMLJun, 2024

MultiMax:稀疏和多模态的注意力学习

TL;DR通过提出 MultiMax 这种分段可微凸函数,根据输入条目范围自适应调节输出分布,我们解决了 SoftMax 及其变体在多模态和稀疏性之间的权衡问题,成功产生了抑制无关条目而保留多模态的分布,对图像分类、语言建模和机器翻译产生了有益的影响。