Oct, 2023

基于 Transformer 的线性模型上下文学习中的高阶优化方法研究

TL;DRTransformers 使用高阶优化方法(如迭代牛顿法)实现了上下文学习(即从示例中学习而无需参数更新),并且与梯度下降相比具有相当的收敛速度,同时在条件良好和条件差的数据上都能成功进行上下文学习。