Oct, 2022

基于分层注意力机制的高效长文档分类探索

TL;DR本研究开发并发布了使用分段编码器,并将其与 Longformer 模型和部分预训练的 HAT 进行比较的完全预训练 HAT 模型,在多个长文档下游分类任务中,我们的最佳 HAT 模型在使用 10-20% GPU 内存的情况下比同等大小的 Longformer 模型更快地处理文档并实现更好的性能。在消融研究中,发现 HAT 在整个模型中进行跨段上下文信息处理比其他配置的早期或晚期跨段上下文处理性能更好。