Mar, 2024

使用线搜索方法加速 Transformer 微调的收敛

TL;DR本研究成功将线搜索方法应用于新颖且受欢迎的 Transformer 架构和自然语言处理数据领域,通过将网络架构细分为合理的单元并在这些局部单元上进行线搜索,将 Armijo 线搜索与 Adam 优化器结合,其优化方法在小数据集或小训练预算的情况下超越传统的 Adam 优化器,并在其他测试案例中表现相等甚至更好。我们的工作以 Python 包的形式公开,提供一个与任意网络架构兼容且无需超参数的 PyTorch 优化器。