BriefGPT.xyz
Ask
alpha
关键词
architectural modifications
搜索结果 - 2
超越极限:大型语言模型中扩展上下文长度的技术综述
本文调查了扩展序列长度的技术和方法,包括架构修改和注意机制的改变等多种方法,并讨论了当前方法的局限性和未来研究方向建议,强调了序列长度对大型语言模型进一步发展的重要性。
PDF
5 months ago
选择哪种 Transformer:视觉 Transformer 效率的比较分析
对视觉 Transformer 及相关架构的效率进行了综合分析,揭示了一系列有趣的见解,例如发现 ViT 在多个效率度量标准上仍然是最佳选择,同时低推理内存和参数数量时,混合注意力 - CNN 模型表现良好,模型大小的缩放比图像大小更为重要
→
PDF
a year ago
Prev
Next