MMMay, 2019

序列模型互信息缩放与表达能力

TL;DR本文研究循环神经网络和自注意力网络的互信息,发现它们的互信息随时间距离呈指数衰减,而 Transformer 网络能更有效地捕捉长程联系,适用于建模具有慢冻结互信息的序列,如自然语言和股票价格。