使用重建模型翻译 Pro-Drop 语言
本文描述了一种改进的基于重构的方法,可以更准确地翻译省略词语言中省略的代词,并且通过对编码器和解码器表示的共享重构器的使用以及学习联合翻译和预测以避免通过外部模型传播的错误,提高了模型的性能。
Oct, 2018
本文提出了一种半监督方法,通过建立自动生成标注数据的 Dropped Pronouns 识别模型和基于深度学习的 DP 生成模型在翻译中识别并补充可能遗漏的代词,实验结果表明,该方法在翻译性能上有了显著提升。
Apr, 2016
本文提出了一种统一且考虑话语的零代词(Zero pronouns, ZPs)翻译方法,利用神经网络实现对 ZP 的预测和翻译,并采用分层神经网络来利用话语上下文,实验结果表明该方法在中英和日英语料数据上显著提高了机器翻译和 ZP 预测的准确性,尤其是缓解了主观 ZPs 带来的误差。
Sep, 2019
本文提出了 DiscProReco,一种神经模型,用于联合恢复 DPR 和对话语篇分析 CDP,并进一步证明 DPR 和 CDP 之间的相关性。DiscProReco 利用有向图卷积网络来编码对话中的 utterance,使用 biaffine 分类器构建对话语篇图,并使用 multi-relational GCN 来产生增强过的语篇关系,同时结合了 token 状态和 utterance 状态作为 dropped pronoun recovery 的输入。实验结果表明,DiscProReco 明显优于两种任务的最先进基线。
Jun, 2021
本文介绍了一种基于结构化关注机制的端到端神经网络模型,用于恢复中文会话数据中省略代词的指代。通过实验结果表明,该模型能够在三种不同类型的会话数据上显著提高省略代词恢复的效果。
May, 2019
这篇研究综述了神经革命之后对于零代词翻译的研究进展,提供了基于演化、数据集、方法和评估的文献组织。另外,该文比较并分析了不同基准测试上的竞争模型和评估指标,找到了一些有见地的发现,例如大语言模型的发展趋势与零代词翻译相一致,而数据限制会造成学习的偏差,而先进的方法离实际应用仍有很大差距等。
May, 2023
本研究提出了一种基于跨语言枢轴技术的新颖方法,用于自动生成高质量的性别标签,并展示了这些数据可用于微调 BERT 分类器,该分类器对于西班牙语中丢失的女性代词具有 92%的 F1,相比之下,神经机器翻译模型和非微调 BERT 模型分别为 30-51% 和 54-71%。我们使用来自我们分类器的标签来增强神经机器翻译模型以改进代词翻译,同时仍具有可并行化的翻译模型,可以逐句翻译。
Jun, 2020
通过添加 reconstructor 到 encoder-decoder 框架中,从输出的 target sentence 的隐藏层中重构输入的 source sentence,改善了神经机器翻译的可靠性和翻译质量。
Nov, 2016