BriefGPT.xyz
Ask
alpha
关键词
sliding-dilated-attention
搜索结果 - 1
Transformer 工作记忆促进正则语言推理和自然语言长度外推
RegularGPT 是一种新型 Transformer 变体,通过 Weight-Sharing、Adaptive-Depth 和 Sliding-Dilated-Attention 实现基于深度的工作记忆,并成功地对 PARITY 等正
→
PDF
a year ago
Prev
Next