BriefGPT.xyz
大模型
Ask
alpha
关键词
glue benchmarks
搜索结果 - 3
ACL
PRILoRA:修剪和增大秩的低秩适应
PRILoRA 通过在线性分配不同的秩给每一层并在训练过程中进行剪枝,考虑到权重的临时大小和给定层的输入的累积统计信息,验证了其在八个 GLUE 基准测试中的有效性,取得了最新的技术成果。
PDF
5 months ago
带有专家路由选择的专家混合模型
我们提出了一种基于专家选择的异构专家混合模型,通过让专家选择前 k 个标记来分配变量数量的专家,从而提高了训练收敛速度,并在 GLUE 基准测试中取得更高的性能。
PDF
2 years ago
EMNLP
Transformer 的简单有效位置编码
本文介绍了一种新的机制 ——Decoupled Positional Attention,将位置和段信息编码为 Transformer 模型,提高了训练和推理效率,在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现,并进一步
→
PDF
3 years ago
Prev
Next