全局关注:用于序列到序列预测的二维卷积神经网络
该研究提出了一种基于注意力机制的序列到序列模型用于手写体识别,其中结合了卷积神经网络进行视觉信息的提取,实验结果表明其相比于最近的序列到序列方法取得了显著提升。
Mar, 2019
利用卷积神经网络架构完全替代了循环神经网络的流行序列到序列学习方法,运用门控线性单元简化了梯度传播,为每个解码器层装备了单独的注意力模块,在 GPU 和 CPU 上取得了比 Wu 等人(2016)更高的准确性和十倍以上的速度。
May, 2017
本文中,我们介绍了一种利用卷积神经网络检测具有局部平移不变性和长远主题型注意力特征的关注神经网络,用于解决将源代码片段极端归纳为类似函数名称的概述的问题,在十个流行的 Java 项目中进行测试,并显示出优于之前注意性机制的性能。
Feb, 2016
研究了一种新的神经机器翻译模型,使用了多维长短期记忆网络(MDLSTM)来实现二维的源语言和目标语言的对应关系,并在 WMT 2017 的德语 - 英语翻译中表现出显著优势。
Oct, 2018
我们提出一种递归编码器 - 解码器深度神经网络架构,直接将一种语言中的语音转换为另一种语言中的文本,通过多任务训练序列到序列的语音翻译和识别模型通过共享编码器网络来提高性能。
Mar, 2017
本文提出了基于注意力卷积网络的端到端场景文本识别方法,通过卷积神经网络 (CNN) 代替循环神经网络 (RNN) 来实现输入序列的上下文依赖关系的准确捕捉,提高了识别效率,并结合残余注意力模块进一步提高特征识别的准确性。该方法在多个数据集上验证结果显示了显著的性能优势。
Sep, 2017
本文提出了一种基于卷积层的神经机器翻译框架,相比双向 LSTM 网络,该框架可以同时编码整个源语句,从而加速了翻译速度,在 WMT'16 数据集上达到了竞争水平的准确性,并在 WMT'15 和 WMT'14 数据集上取得了优异的结果。
Nov, 2016
本文介绍了使用深度神经网络中的递归神经网络和卷积神经网络等措施来实现注意力机制,以解决多元随机变量富含联合分布的结构化输出问题。通过典型任务如机器翻译、图像字幕生成、视频片段描述和语音识别实验,系统展示了很好的性能。
Jul, 2015
本文提出一种基于注意力机制的 Transformer 模型,优于使用循环或卷积神经网络的现有机器翻译模型,且可并行训练、训练时间更短,使得 BLEU 评分得以显著提高,并成功将该模型应用于英语句法分析等任务。
Jun, 2017