Apr, 2021

使用分层学习生成长源序列

TL;DR本研究设计并研究了一种新的分层注意力 Transformer 架构(HAT),在几个序列到序列任务中优于标准 Transformer,包括在 PubMed、arXiv、CNN/DM、SAMSum 和 AMI 上的四个摘要任务中取得了最新的 ROUGE 分数。该架构在 WMT20 英文到德文翻译任务中优于文档级机器翻译基线,并通过可视化分层编解码器注意力来研究了分层层次的理解,最后研究了编码器预训练上的分层学习并分析了其在分类任务上的性能。