Apr, 2023

大规模视觉语言模型的稳定低精度训练

TL;DR本文提出针对大型语言视觉模型加速和稳定性训练的新方法,包括SwitchBack技术和AdamW-Adafactor混合的StableAdamW技术,提高了模型的训练速度和稳定性。