Jun, 2020

自注意力的利普希茨常数

TL;DR本研究探讨了自注意力模型的 Lipschitz 常数,并提出了一种 L2 自注意力模型来代替标准点积自注意力模型,同时推导出了 L2 自注意力模型的 Lipschitz 常数上限,并证明了其在实践中的可行性和实用性,包括用于字符级别语言建模的 Transformer-based 架构。