指代零代词数据增强方法

EMNLPSep, 2021

Data Augmentation Methods for Anaphoric Zero Pronouns

Abdulrahman Aloraini, Massimo Poesio

TL;DR本文使用五种数据增强方法自动生成和检测指代零代词，提高了两个针对阿拉伯语的零代词系统的性能，表现超越了现有的最先进技术，为自然语言处理研究提供了新的资源。

Abstract

In pro-drop language like arabic, Chinese, Italian, Japanese, Spanish, and many others, unrealized (null) arguments in certain syntactic positions can refer to a previously introduced entity, and are thus called

anaphoric zero pronoun pro-drop language data augmentation arabic natural language processing

发现论文，激发创造

日英翻译的零代词数据增广

本研究针对日英翻译中的零代词问题，提出了一种数据扩充方法来增强模型对局部文本和零代词之间的关联，实验证明该方法显著提高了在对话领域中零代词翻译的准确性。

Jul, 2021

一种集成零代词检测和解析的日语指代概率分析方法

本文提出了一种分析日本指代语的方法，使用零代词（省略的必须格）来指代前一个实体（先行词），并整合两个概率参数，以在单一框架内执行零代词检测和消解。

Jun, 2002

阿拉伯语中零指代和非零指代的联合共指消解

本文提出了两种用于联合解析阿拉伯语中无指代的零代词和非零代词的架构，并在此基础上进行评估，同时创建了一个新版本的阿拉伯语子集的共指解析数据集。

Oct, 2022

零代词翻译的调查

这篇研究综述了神经革命之后对于零代词翻译的研究进展，提供了基于演化、数据集、方法和评估的文献组织。另外，该文比较并分析了不同基准测试上的竞争模型和评估指标，找到了一些有见地的发现，例如大语言模型的发展趋势与零代词翻译相一致，而数据限制会造成学习的偏差，而先进的方法离实际应用仍有很大差距等。

May, 2023

伪零代词消解改善零指代消解

本研究提出两个新的建议，分别是在 MLMs 上使用含有显式监督的方法进行项链关系的预训练任务以及新的微调方法，实验证明这两个建议可以提升零指称解析的性能，同时揭示了其余挑战的新见解。

Apr, 2021

生成和利用大规模伪训练数据进行零代词消解

本文提出了一种自动生成大规模虚拟训练数据的方法，以解决零代词指代问题中标注数据不足的问题，并成功将阅读理解神经网络模型用于零代词指代问题，通过提出的两步训练机制在 OntoNotes 5.0 数据集上取得了显著的 3.1％ F-score 改进。

Jun, 2016

语言模型在预测意大利指代零代词的指称对象方面是否具有人类化的表现？

本文研究了零代词在人类语言理解者及神经语言模型中的表现，通过在五组实验中，将句子中的零代词暴露给 12 个当代语言模型。研究发现其中三个模型成功模拟了人类的表现，这表明了人类语言基于语言经验的表现和语言模型更好地反映人类表现之间的联系。

Aug, 2022

针对日语零指代消解的上下文数据增强的实证研究

本研究采用语境数据增强的方式解决了零代词消解技术中标注数据不足的问题，并提出了两种适用于零代词消解任务的数据增强方法。实验证明这些方法有助于提高准确性和降低计算成本。

Nov, 2020

一个用于中文零代词消解的深度神经网络

该研究提出了一种新的零代词特定神经网络，通过利用语义层面上的上下文信息来表示零代词，并使用两级候选人编码器来明确捕获候选人的本地和全局信息，实验结果表明，在各种实验设置中，我们的方法明显优于现有技术。

Apr, 2016

学习两个任务的单模型：零代词预测与翻译

本文提出了一种统一且考虑话语的零代词（Zero pronouns, ZPs）翻译方法，利用神经网络实现对 ZP 的预测和翻译，并采用分层神经网络来利用话语上下文，实验结果表明该方法在中英和日英语料数据上显著提高了机器翻译和 ZP 预测的准确性，尤其是缓解了主观 ZPs 带来的误差。

Sep, 2019