Feb, 2024

基于梯度下降的 Transformer 网络学习因果结构

TL;DR通过梯度下降优化算法,变压器模型通过自注意机制在第一个注意力层中编码潜在的因果图,从而学习了因果结构。