Apr, 2024

语言模型级联:标记级别的不确定性和更多

TL;DR通过对 FLAN-T5 模型在一系列自然语言基准测试中进行实验,我们表明,通过学习后续的推迟规则来结合较小模型的嵌入和较大模型的中间层,可以在整体成本与质量的权衡中实现额外的提升。