ICLRFeb, 2020

具有层次累积的树状关注

TL;DR本文提出了 “Hierarchy Accumulation” 的方法,将分析树结构编码为自注意力,以常数时间复杂度实现了序列模型,相较于 SOTA 方法,在四个 IWSLT 翻译任务和 WMT'14 英德翻译任务上表现更好,并在三项文本分类任务上胜过 Transformer 和 Tree-LSTM,同时表明使用分层先验可以补偿数据短缺,该模型更倾向于使用短语级别的自注意力。