BriefGPT.xyz
Ask
alpha
关键词
chunked sequences
搜索结果 - 1
ACL
Cluster-Former: 基于聚类的稀疏变形器,用于长距离依赖编码
本研究提出了一种基于聚类的稀疏 Transformer 模型,它由滑动窗口层和 Cluster-Former 层组成,能够跨越窗口编码本地序列信息和全局上下文信息,这种新的设计在回答具有长程依赖性的问题时尤其有益,实验结果表明其在多项 QA
→
PDF
4 years ago
Prev
Next