一种新的省略代词翻译方法

ACLApr, 2016

A Novel Approach to Dropped Pronoun Translation

Longyue Wang, Zhaopeng Tu, Xiaojun Zhang, Hang Li, Andy Way...

TL;DR本文提出了一种半监督方法，通过建立自动生成标注数据的 Dropped Pronouns 识别模型和基于深度学习的 DP 生成模型在翻译中识别并补充可能遗漏的代词，实验结果表明，该方法在翻译性能上有了显著提升。

Abstract

dropped pronouns (DP) in which pronouns are frequently dropped in the source language but should be retained in the target language are challenge in machine translation. In response to this problem, we propose a semi-su

dropped pronouns machine translation semi-supervised approach deep learning translation system

发现论文，激发创造

使用重建模型翻译 Pro-Drop 语言

本文提出了一种新颖的基于重构的方法来解决神经机器翻译中省略代词问题，自动提取并重构源语句使得神经机器翻译模型能够更好地嵌入被注释的代词信息，该方法显著和一致地提高了中英和日英对话翻译任务的翻译性能。

Jan, 2018

利用共享恢复机制学习联合翻译和预测省略代词

本文描述了一种改进的基于重构的方法，可以更准确地翻译省略词语言中省略的代词，并且通过对编码器和解码器表示的共享重构器的使用以及学习联合翻译和预测以避免通过外部模型传播的错误，提高了模型的性能。

Oct, 2018

学习两个任务的单模型：零代词预测与翻译

本文提出了一种统一且考虑话语的零代词（Zero pronouns, ZPs）翻译方法，利用神经网络实现对 ZP 的预测和翻译，并采用分层神经网络来利用话语上下文，实验结果表明该方法在中英和日英语料数据上显著提高了机器翻译和 ZP 预测的准确性，尤其是缓解了主观 ZPs 带来的误差。

Sep, 2019

中文会话语音中代词缺失恢复和对话语篇分析的联合模型

本文提出了 DiscProReco，一种神经模型，用于联合恢复 DPR 和对话语篇分析 CDP，并进一步证明 DPR 和 CDP 之间的相关性。DiscProReco 利用有向图卷积网络来编码对话中的 utterance，使用 biaffine 分类器构建对话语篇图，并使用 multi-relational GCN 来产生增强过的语篇关系，同时结合了 token 状态和 utterance 状态作为 dropped pronoun recovery 的输入。实验结果表明，DiscProReco 明显优于两种任务的最先进基线。

Jun, 2021

可扩展的跨语言支枢词建模代词性别用于翻译

本研究提出了一种基于跨语言枢轴技术的新颖方法，用于自动生成高质量的性别标签，并展示了这些数据可用于微调 BERT 分类器，该分类器对于西班牙语中丢失的女性代词具有 92％的 F1，相比之下，神经机器翻译模型和非微调 BERT 模型分别为 30-51% 和 54-71％。我们使用来自我们分类器的标签来增强神经机器翻译模型以改进代词翻译，同时仍具有可并行化的翻译模型，可以逐句翻译。

Jun, 2020

通过模拟指代关系恢复汉语会话中丢失的代词

本文介绍了一种基于结构化关注机制的端到端神经网络模型，用于恢复中文会话数据中省略代词的指代。通过实验结果表明，该模型能够在三种不同类型的会话数据上显著提高省略代词恢复的效果。

May, 2019

零代词翻译的调查

这篇研究综述了神经革命之后对于零代词翻译的研究进展，提供了基于演化、数据集、方法和评估的文献组织。另外，该文比较并分析了不同基准测试上的竞争模型和评估指标，找到了一些有见地的发现，例如大语言模型的发展趋势与零代词翻译相一致，而数据限制会造成学习的偏差，而先进的方法离实际应用仍有很大差距等。

May, 2023

生成和利用大规模伪训练数据进行零代词消解

本文提出了一种自动生成大规模虚拟训练数据的方法，以解决零代词指代问题中标注数据不足的问题，并成功将阅读理解神经网络模型用于零代词指代问题，通过提出的两步训练机制在 OntoNotes 5.0 数据集上取得了显著的 3.1％ F-score 改进。

Jun, 2016

融合损失的代词目标定向 NMT 微调

本研究引入了一类新的条件生成 - 判别混合 Loss，用于微调经过训练的机器翻译模型，通过有针对性的微调目标和直观地重复利用训练数据，从而在不使用任何其他数据的情况下提高了模型的性能。我们针对代词翻译问题进行微调，并在代词基准测试集上对模型进行评估。结果表明我们的模型在几个测试集上都实现了较高的 BLEU 分数，特别是在 IWSLT13 De-En testset 上达到了最佳效果。同时我们还在 Fr-En 和 Cs-En 上重现了该方法的改进效果。

Oct, 2020

通过遮蔽名词短语预测进行无监督代词消解

该研究提出了遮盖名词短语预测（MNPP）的先训练策略，用于在完全无监督的情况下解决代词消解，实验表明 MNPP 方法在多个代词消解数据集上的表现都优于之前的无监督方法，同时在 WinoGrande-S 和 XS 上进一步微调后也超过 RoBERTa-large 基线。

May, 2021