Oct, 2023

稀疏通用变压器

TL;DR提出了 Sparse Universal Transformer (SUT),利用稀疏专家混合(SMoE)和基于断裂棒的动态终止机制来减少 UT 的计算复杂性,同时保持其参数效率和泛化能力。实验证明,SUT 在 WMT'14 上仅使用一半的计算和参数与强基准模型实现相同性能,并在形式语言任务(逻辑推理和 CFQ)上获得强大的泛化结果。新的终止机制还在推理过程中实现了大约 50% 的计算减少,而在形式语言任务上的性能降低非常小。