Oct, 2023

令牌混合:通过跨样本聚合实现高效的 LLMs

TL;DR提出了一种全可微分的模型,称为 Mixture of Tokens,它在避免了 Mixture of Experts 模型的困难的同时保留了其优点,通过在专家之前混合来自不同示例的标记,使模型能够从所有标记 - 专家组合中学习。此方法与大型语言模型的训练和推理完全兼容。