BriefGPT.xyz
大模型
Ask
alpha
关键词
pre-trained checkpoints
搜索结果 - 2
ACL
RealFormer: 喜欢残差注意力的 Transformer
提出了一种名为 RealFormer 的技术,可以创建残差注意力层的 Transformer 网络,并在许多任务上显著优于标准 Transformer 及其变体。该技术不仅稳定了训练,而且还可以导致具有更少注意力的模型,并提供了预训练检查点
→
PDF
4 years ago
ACL
利用预训练检查点进行序列生成任务
本篇论文展示了预训练模型的高效性,使用 Transformer-based 序列到序列模型,并将其与公开的预训练检查点匹配,取得了机器翻译、文本摘要、句子拆分和句子融合等方面的最新的最新成果。
PDF
5 years ago
Prev
Next