ICMLOct, 2023

多头注意力的优化和泛化

TL;DR使用多头自注意力机制,经过一定的初始条件和训练,可以优化和推广 Transformer 模型的核心机制,获得收敛和泛化保证。