May, 2024

基于张量积的专家混合模型

TL;DR在多任务学习中,我们提出了一种新的模块化语言模型(TensorPoly),它通过精细的路由方法和参数效率平衡来减轻负面干扰,并通过高效的自适应方法在多任务迁移学习中取得更好的结果。