BriefGPT.xyz
Ask
alpha
关键词
scaling up model size
搜索结果 - 3
只需缓存一次:用于语言模型的解码器 - 解码器架构
用一种仅缓存一次的解码器 - 解码器架构 (YOCO) 来构建大型语言模型,以降低 GPU 内存需求,并在模型尺寸扩大和词汇数量增加的情况下取得良好的性能,并提高针筒检索的准确性。
PDF
2 months ago
FedBRB:设备异构联邦学习中小到大场景的有效解决方案
最近,大型模型的成功展示了扩大模型规模的重要性,这在联邦学习的视角下激发了对大规模模型的协同训练的兴趣。由于计算约束,许多机构在本地训练大规模模型时面临困难。因此,只使用较小的本地模型训练更大的全局模型已成为重要的场景。尽管最近的设备异构联
→
PDF
4 months ago
大型双编码器是可推广的检索器
本文通过对双编码器进行多阶段训练,并在保持瓶颈嵌入大小不变的同时扩大了双编码器模型的规模,挑战了一种广为流传的观念,即双编码器在一个域上训练后,往往无法推广到其他域的检索任务中。结果表明,我们的双编码器模型 ——GTR,尤其是在域外泛化方面
→
PDF
3 years ago
Prev
Next