Mar, 2024

Transformer 对于上下文中的牛顿法能模拟多好?

TL;DR利用线性注意力变换器实现逻辑回归的二阶优化算法,并仅需要对数层数量的误差即可实现 epsilon 误差。