BriefGPT.xyz
Ask
alpha
关键词
deep layers
搜索结果 - 4
推理过程中不需要所有 LLM 层
利用适应性输入实例的简单算法 AdaInfer,在 Large Language Models 的推理阶段中使用浅层次进行简单实例的推理和深层次进行困难实例的推理,可在节省计算资源的同时保持性能。
PDF
4 months ago
GraNNDis: 面向大规模集群的高效统一分布式训练框架用于深度图神经网络
GraNNDis 是一个高效的分布式 GNN 训练框架,通过共享预加载、扩展感知采样和合作批处理三种技术,解决了大图和深层训练中的通信和内存问题,实现了超越现有分布式 GNN 训练框架的速度提升。
PDF
8 months ago
NLP Transformer 中的双螺旋结构
本研究提出了通过分析 NLP Transformer 中的不同信息类型的框架,并通过 Linear-and-Add 方法优化位置信息嵌入,发现位置信息具有深度分离特征,进而证明其对于 encoder 处的词性聚类和 decoder 处的下一
→
PDF
a year ago
前向 ReLU 网络的解决方案理论探讨
本文通过推导基本规则来解释前馈 ReLU 网络的机制,以解释工程网络架构,并提供了加强解决方案普遍性的几种方法。
PDF
2 years ago
Prev
Next