关键词hierarchical attention transformer
搜索结果 - 2
- 基于分层注意力机制的高效长文档分类探索
本研究开发并发布了使用分段编码器,并将其与 Longformer 模型和部分预训练的 HAT 进行比较的完全预训练 HAT 模型,在多个长文档下游分类任务中,我们的最佳 HAT 模型在使用 10-20% GPU 内存的情况下比同等大小的 L - 使用分层学习生成长源序列
本研究设计并研究了一种新的分层注意力 Transformer 架构(HAT),在几个序列到序列任务中优于标准 Transformer,包括在 PubMed、arXiv、CNN/DM、SAMSum 和 AMI 上的四个摘要任务中取得了最新的