Apr, 2023

利用分解注意力的单层变换器对广义 Potts 模型进行最优推断

TL;DR通过对来自一个广义 Potts 模型的数据进行学习,我们证明了带一点修改的自注意力单层可以在无限采样的极限下精确地学习这个分布,这种修改后的自注意力具有与条件概率相同的功能形式。