Mar, 2023

稀疏专家混合下的视觉语言模型扩展

TL;DR本研究探讨了使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战,并在等效计算成本下实现最先进性能的潜力,通过稀疏门控专家组对模型解释性的影响及其与 VLM 扩展计算性能之间的折衷,本文为大规模视觉语言模型的扩展提供了宝贵的洞见,并希望能够激发对 MoE 在其他多模态机器学习应用中的研究。