使用重建模型翻译 Pro-Drop 语言

AAAIJan, 2018

Translating Pro-Drop Languages with Reconstruction Models

Longyue Wang, Zhaopeng Tu, Shuming Shi, Tong Zhang, Yvette Graham...

TL;DR本文提出了一种新颖的基于重构的方法来解决神经机器翻译中省略代词问题，自动提取并重构源语句使得神经机器翻译模型能够更好地嵌入被注释的代词信息，该方法显著和一致地提高了中英和日英对话翻译任务的翻译性能。

Abstract

Pronouns are frequently omitted in pro-drop languages, such as Chinese, generally leading to significant challenges with respect to the production of complete translations. To date, very little attention has been paid to the dropped pronoun (DP) problem within →

pro-drop languages neural machine translation dropped pronoun problem reconstruction-based approach translation performance

发现论文，激发创造

利用共享恢复机制学习联合翻译和预测省略代词

本文描述了一种改进的基于重构的方法，可以更准确地翻译省略词语言中省略的代词，并且通过对编码器和解码器表示的共享重构器的使用以及学习联合翻译和预测以避免通过外部模型传播的错误，提高了模型的性能。

Oct, 2018

一种新的省略代词翻译方法

本文提出了一种半监督方法，通过建立自动生成标注数据的 Dropped Pronouns 识别模型和基于深度学习的 DP 生成模型在翻译中识别并补充可能遗漏的代词，实验结果表明，该方法在翻译性能上有了显著提升。

Apr, 2016

学习两个任务的单模型：零代词预测与翻译

本文提出了一种统一且考虑话语的零代词（Zero pronouns, ZPs）翻译方法，利用神经网络实现对 ZP 的预测和翻译，并采用分层神经网络来利用话语上下文，实验结果表明该方法在中英和日英语料数据上显著提高了机器翻译和 ZP 预测的准确性，尤其是缓解了主观 ZPs 带来的误差。

Sep, 2019

中文会话语音中代词缺失恢复和对话语篇分析的联合模型

本文提出了 DiscProReco，一种神经模型，用于联合恢复 DPR 和对话语篇分析 CDP，并进一步证明 DPR 和 CDP 之间的相关性。DiscProReco 利用有向图卷积网络来编码对话中的 utterance，使用 biaffine 分类器构建对话语篇图，并使用 multi-relational GCN 来产生增强过的语篇关系，同时结合了 token 状态和 utterance 状态作为 dropped pronoun recovery 的输入。实验结果表明，DiscProReco 明显优于两种任务的最先进基线。

Jun, 2021

通过模拟指代关系恢复汉语会话中丢失的代词

本文介绍了一种基于结构化关注机制的端到端神经网络模型，用于恢复中文会话数据中省略代词的指代。通过实验结果表明，该模型能够在三种不同类型的会话数据上显著提高省略代词恢复的效果。

May, 2019

零代词翻译的调查

这篇研究综述了神经革命之后对于零代词翻译的研究进展，提供了基于演化、数据集、方法和评估的文献组织。另外，该文比较并分析了不同基准测试上的竞争模型和评估指标，找到了一些有见地的发现，例如大语言模型的发展趋势与零代词翻译相一致，而数据限制会造成学习的偏差，而先进的方法离实际应用仍有很大差距等。

May, 2023

可扩展的跨语言支枢词建模代词性别用于翻译

本研究提出了一种基于跨语言枢轴技术的新颖方法，用于自动生成高质量的性别标签，并展示了这些数据可用于微调 BERT 分类器，该分类器对于西班牙语中丢失的女性代词具有 92％的 F1，相比之下，神经机器翻译模型和非微调 BERT 模型分别为 30-51% 和 54-71％。我们使用来自我们分类器的标签来增强神经机器翻译模型以改进代词翻译，同时仍具有可并行化的翻译模型，可以逐句翻译。

Jun, 2020

基于重建的神经机器翻译

通过添加 reconstructor 到 encoder-decoder 框架中，从输出的 target sentence 的隐藏层中重构输入的 source sentence，改善了神经机器翻译的可靠性和翻译质量。

Nov, 2016

日英翻译的零代词数据增广

本研究针对日英翻译中的零代词问题，提出了一种数据扩充方法来增强模型对局部文本和零代词之间的关联，实验证明该方法显著提高了在对话领域中零代词翻译的准确性。

Jul, 2021

神经原型语言重建

通过数据增强、使用变分自动编码器 (VAE) 结构的 Transformer 模型和神经机器翻译模型，通过改进之前的方法来提高原型形态重建的性能。

Apr, 2024