具有潜在树状注意力的神经机器翻译

Sep, 2017

具有潜在树状注意力的神经机器翻译

Towards Neural Machine Translation with Latent Tree Attention

James Bradbury, Richard Socher

TL;DR我们介绍了一种利用循环神经网络语法编码器和新颖的注意力递归神经网络解码器的模型，利用策略梯度强化学习来在源语言和目标语言上诱导无监督树结构，从而训练出在字符级数据集中相当不错的分割和浅层解析表现，接近注意力基准。

Abstract

Building models that take advantage of the hierarchical structure of language without a priori annotation is a longstanding goal in natural language processing. We introduce such a model for the task of machine translat

hierarchical structure natural language processing machine translation recurrent neural network policy gradient

发现论文，激发创造

基于注意力机制的神经机器翻译双向分层表示

本文提出了一种层次注意机制的神经翻译模型，采用双向树形编码器来增强源端层次表示，用加权变异的注意机制平衡词汇和短语向量之间的信息，通过树形稀有词编码将该模型扩展至亚字级别以缓解词汇缺失的问题，实证结果表明，该模型在英汉翻译任务中显著优于序列到序列的注意力机制和基于树的神经翻译模型。

Jul, 2017

学习解析和翻译改进神经机器翻译

本文提出了一种名为 NMT+RNNG 的混合模型，它将循环神经网络语法与基于注意力的神经机器翻译相结合，通过训练鼓励神经机器翻译模型吸收语言先验知识，并在其后进行自主翻译。4 种语言配对的实验表明该模型非常有效。

Feb, 2017

源端潜在图解析的神经机器翻译

该论文提出了一种新颖的神经机器翻译模型，可联合学习句子的翻译和源端的潜在图表示，通过端到端模型优化句子的潜在图解析器，实现了目标翻译优化，并在标准的英日翻译数据集上显著优于以前的最佳模型。

Feb, 2017

基于循环注意力模型的神经机器翻译

通过使用一个循环网络来明确地建模词语先前和随后的注意力水平之间的关系，我们改进了 Bahdanau 等人（2014）的注意力模型，并且我们的参数化注意力模型的实验表明其可以提高翻译质量。

Jul, 2016

利用语法感知编码器和解码器实现改进的神经机器翻译

本研究致力于改进基于编码器 - 解码器框架的神经机器翻译模型，通过显式地结合源侧语法树，在两种结构化表示（顺序和树）之间进行学习，提出具有树覆盖模型和双向树编码器的翻译模型，并证实优于其他基线模型。

Jul, 2017

基于树形结构注意力编码器的句对建模

本文介绍了一种关注编码器，结合了树状递归神经网络和序列循环神经网络，用于对模拟句子对。我们的关注编码器将 RNN 生成的一个句子的表示用于指导另一个句子的结构编码，评估结果表明，在语义相似度和释义选择方面，我们的编码器优于所有基线，并取得了最佳结果。

Oct, 2016

树到序列的注意力神经机器翻译

本文提出了一种新的端对端句法神经机器翻译模型，在源端短语结构的基础上扩展了序列到序列模型，并引入了注意力机制，可以软对齐短语和源句子中的单词，实验结果表明，相比于序列到序列的注意力 NMT 模型，该模型表现显著提升，在 WAT'15 英日翻译数据集上，与当下最优秀的树到串翻译系统相比可媲美。

Mar, 2016

神经机器翻译中的潜在句子结构建模

本篇研究探究了使用不同编码器进行神经机器翻译（NMT）时，受监督 parser 预测的语言结构和拥有潜在变量的句子结构在推断神经网络执行机器翻译任务时的优化作用。结果表明，使用 RNN 编码器时，模型几乎不使用结构感知工具；相反，CNN 和基于词嵌入的编码器依赖于潜在的图表达，能够将有用的潜在依赖编码入网络，在某些情况下能够覆盖较长距离的依赖。

Jan, 2019

使用注意力递归树嵌入句子的学习

本文提出了一种新的 Attentive Recursive Tree 模型，它可以根据任务动态地定位一个句子中的重要单词，在底向上进行句子嵌入的组成时，AR-Tree 可以内在地强调重要单词。通过一种端到端的加强训练策略，该模型在三个句子理解任务上表现出色。

Nov, 2018

生成式神经机器翻译

介绍了生成神经机器翻译（GNMT）的概念，通过添加潜在变量提高翻译模型的语义建模能力，从而实现跨语言翻译，半监督学习以及降低过拟合的效果。

Jun, 2018