Feb, 2024

可证明学习多头注意力层

TL;DR从随机示例中学习多头注意力层的算法,给出了该问题的首个非平凡上下界。