生成和利用大规模伪训练数据进行零代词消解

Jun, 2016

生成和利用大规模伪训练数据进行零代词消解

Generating and Exploiting Large-scale Pseudo Training Data for Zero Pronoun Resolution

Ting Liu, Yiming Cui, Qingyu Yin, Shijin Wang, Weinan Zhang...

TL;DR本文提出了一种自动生成大规模虚拟训练数据的方法，以解决零代词指代问题中标注数据不足的问题，并成功将阅读理解神经网络模型用于零代词指代问题，通过提出的两步训练机制在OntoNotes 5.0数据集上取得了显著的3.1％ F-score改进。

Abstract

Most existing approaches for zero pronoun resolution are supervised approaches, where annotated data are released by shared task organizers. Therefore, the lack of →

发现论文，激发创造

一个用于中文零代词消解的深度神经网络

该研究提出了一种新的零代词特定神经网络，通过利用语义层面上的上下文信息来表示零代词，并使用两级候选人编码器来明确捕获候选人的本地和全局信息，实验结果表明，在各种实验设置中，我们的方法明显优于现有技术。

Apr, 2016

WikiCREM: 一个大型无监督语料库用于指代消解

本研究通过引入大小适中，精度高的 WikiCREM 数据集以及基于语言模型的方法，对代词消岐问题进行了研究，并在 GAP、DPR、WNLI、PDP、WinoBias 和 WinoGender 等七个数据集上取得优秀的表现。同时，我们提供了可直接使用的模型以解决代词消岐问题。

Aug, 2019

客观目标是否重要？比较代词消解的训练目标

通过四种训练和评估目标的公平比较，我们发现序列排名是领域内表现最好的目标，而候选项和代词之间的语义相似度是领域外表现最好的目标。我们还观察到使用序列排名的模型具有种子不稳定性，而使用其他目标则不是这种情况。

Oct, 2020

伪零代词消解改善零指代消解

本研究提出两个新的建议，分别是在MLMs上使用含有显式监督的方法进行项链关系的预训练任务以及新的微调方法，实验证明这两个建议可以提升零指称解析的性能，同时揭示了其余挑战的新见解。

Apr, 2021

通过遮蔽名词短语预测进行无监督代词消解

该研究提出了遮盖名词短语预测（MNPP）的先训练策略，用于在完全无监督的情况下解决代词消解，实验表明MNPP方法在多个代词消解数据集上的表现都优于之前的无监督方法，同时在WinoGrande-S和XS上进一步微调后也超过RoBERTa-large基线。

May, 2021

日英翻译的零代词数据增广

本研究针对日英翻译中的零代词问题，提出了一种数据扩充方法来增强模型对局部文本和零代词之间的关联，实验证明该方法显著提高了在对话领域中零代词翻译的准确性。

Jul, 2021

零代词翻译的调查

这篇研究综述了神经革命之后对于零代词翻译的研究进展，提供了基于演化、数据集、方法和评估的文献组织。另外，该文比较并分析了不同基准测试上的竞争模型和评估指标，找到了一些有见地的发现，例如大语言模型的发展趋势与零代词翻译相一致，而数据限制会造成学习的偏差，而先进的方法离实际应用仍有很大差距等。

May, 2023

一种用于阿拉伯语代词消解的序列到序列方法

该论文提出了一种序列到序列的学习方法，探究了利用先进的自然语言处理（NLP）技术，特别是Bi-LSTM和BERT预训练语言模型，解决阿拉伯语代词消解问题的有效性。作者建议的方法在AnATAr数据集上进行了评估，并与包括传统机器学习模型和手工特征模型在内的数个基准模型进行了比较。实验结果表明，建议的模型在所有指标上都优于比较模型，包括KNN、逻辑回归和SVM。此外，作者还探究了多个对模型的修改对性能的影响，结果显示，这些修改显著提高了模型的性能，达到了81％的MRR和71％的F1得分，同时还表现出更高的精确度，召回率和准确性。该发现表明，作者建议的模型是解决阿拉伯语代词消解问题的有效方法，也展示了利用先进的NLP神经模型的潜在优势。

May, 2023

大型语言模型是否具有鲁棒的零-shot指代消解能力?

该论文探讨了使用预训练大型语言模型进行无监督共指消解的可行性，实验证明零样本提示优于当前的无监督共指系统，并展示了指令调整语言模型在领域适应、跨语言和跨时期方面的强大零样本泛化能力，以及高质量提及检测系统的重要性。

May, 2023

波斯代词消解：利用神经网络和语言模型

该研究提出了一种用于波斯语代词消解的端到端神经网络系统，利用预训练的Transformer模型如ParsBERT。我们的系统同时优化了提及检测和先行链路，相比前期依赖基于规则和统计方法的最新系统，在Mehr语料库上实现了3.37 F1分数的提高。这一显著改进展示了将神经网络与语言模型结合的有效性，可能标志着波斯语代词消解领域的显著进展，并为进一步的研究铺平了道路。

May, 2024