关键词accuracy-efficiency tradeoff
搜索结果 - 2
- 分支训练 MiX:将专家 LLMs 混合到一个专家混合 LLM 中
我们研究了训练大型语言模型在多个专业领域(如编码、数学推理和世界知识)中具备能力的高效方法。我们的方法名为 Branch-Train-MiX(BTX),从一个种子模型开始,在高吞吐量和减少通信成本的尴尬地并行训练专家。在专家异步训练后,BT - ICLR移动设备神经语言模型自适应修剪
本文通过在 quasi-recurrent neural networks (QRNNs) 基础上应用剪枝技术来提供一种选择不同操作点的 “旋钮”,并提出一种使用可忽略量的内存恢复一些 perplexity 的简单技术,并在树莓派上考虑 p