BriefGPT.xyz
Ask
alpha
关键词
hidden selection policy
搜索结果 - 1
分割、对齐、选择:一种用于 Transformer 的简单长序列处理方法
通过将每个长序列输入分割成一批块,并在编码步骤中对块间信息进行对齐,我们提出了一个简单的框架,使通用的预训练 Transformer 能够处理更长的序列,同时计算和内存成本与输入序列长度线性增长。通过在每个编码 Transformer 模块
→
PDF
a year ago
Prev
Next