ICLRDec, 2017

单调块级注意力

TL;DR本文介绍了一种名为 MoChA 的注意力机制,该机制可以将输入序列自适应地分成小块,以实现在线和线性时间解码,并在在线语音识别和文档摘要等任务中取得了良好的结果。