BriefGPT.xyz
Ask
alpha
关键词
transformer-based large language model
搜索结果 - 3
ACL
多语言微调中语言特定类别不平衡的影响理解
我们研究了现实生活中多语种分类数据集中常见的一种不平衡现象:标签在不同语言之间的分布不均。我们通过证据表明,在这种不平衡的数据集上微调基于 Transformer 的 Large Language Model(LLM)会导致性能下降、隐空间
→
PDF
5 months ago
ConSmax:硬件友好的可学习参数替代 Softmax
提出了一种有效的自注意机制替代方案 ConSmax,通过可扩展硬件和可微分参数实现大规模并行计算,以实现基于 Transformer 的大型语言模型的实时推理,并取得比现有方案更好的能源和面积性能。
PDF
5 months ago
DeepSpeed Ulysses:极长序列 Transformer 模型训练的系统优化
DeepSpeed-Ulysses 是一种新颖、可移植和有效的方法,用于实现高效且可扩展的长序列大型语言模型的训练,包括在序列维度上划分输入数据和使用高效的全互联通信进行注意力计算。实验评估结果显示,DeepSpeed-Ulysses 在
→
PDF
9 months ago
Prev
Next