并行数据有助于神经实体共指消解
本研究提出了一种基于集成方法和迁移学习的框架以及一种低成本的迁移学习方法,用于解决非英语语言的实体共指消解问题,并在 Arabic,Dutch 和 Spanish 三种语言上取得了新的最先进结果。
Jan, 2023
本文提出了一种基于实体为中心的跨语言指代消解模型,利用多语言嵌入和语言无关特征进行构建,并进行了内在和外在评估。结果表明,本模型在英语训练,中文和西班牙语测试上的性能表现优异,能够在不利用任何中文或西班牙语标注数据的情况下,实现优越的实体链接精度。
Jun, 2018
本文研究并比较了使用无监督机器翻译生成的合成平行数据与有监督机器翻译和现有规范平行数据的效果;使用这些数据解决一些下游任务的表现。作者发现,即使是模型生成的平行数据也可以在继续预训练和具体任务训练方面对下游任务有所帮助,但目前最佳结果仍然来自于真实的平行数据。该研究提示人们重新考虑跨语种学习方法的传统分类,并可以更大程度地利用单语数据进行多语言建模。
Dec, 2022
本文探讨了两种语言处理任务的潜在协同作用:识别谓词释义和事件共指解析。作者通过使用事件共指数据集的注释来重新评分启发式抽取的谓词释义,实现了 18 个平均精度点的提升,并将同样的重新排序方法应用于事件共指解析模型中,进一步提高了模型的性能。研究结果揭示了一种有效的利用数据和模型相互受益的途径。
Apr, 2020
通过使用神经网络和学习搜索算法,本研究提出了一种基于实体级信息的代指消解系统,其在 CoNLL 2012 共享任务数据集的英语和中文部分上,即使使用了很少的手工特征,也显著优于当前最先进的技术。
Jun, 2016
本文提出一种将有效的顺序预测范例用于跨文档指代消解的新模型,通过增量式将提及点组合成集群表征,并预测提及点与已构建的集群之间的链接,近似高阶模型,既成为实体和事件指代消解领域中具有竞争力的解决方案,也提供了不同输入和表示类型在对指代消解过程中的重要性的新见解。
Apr, 2021
本文介绍了第一个端到端的共指消解模型,并展示了它在不使用句法分析器或手工制作的提及检测器的情况下,明显优于所有以前的工作。模型的关键思想是直接将文档中的所有跨度作为可能的提及,并学习每个可能的先行词的分布。模型计算跨度嵌入,将依赖于上下文的边界表示与定位注意机制相结合。它被训练成最大化核对聚类中的黄金先行跨度的边际可能性,并分解以便于对可能存在的提及进行积极修剪。实验表明,尽管这是第一个成功训练不使用外部资源的方法,它仍可以在 OntoNotes 基准测试上获得 1.5 F1 分数的增益,并使用 5 个模型集合获得 3.1 F1 分数的提升。
Jul, 2017
本文提出 Multilingual Multiparty Coref (MMC) 数据集用于核心参照消解任务,通过注释的转录来提供其他语言 (中文和波斯语) 的银参照数据,在英文数据中,现有的模型在 MMC 上的表现相对较差,说明 MMC 具有比先前数据集更广泛的多方参照覆盖范围。在银数据上,我们发现在模拟零 - shot 跨语言环境方面,使用它进行数据增强和从头开始的训练都很成功。
Aug, 2022
本文探讨基于单个数据集训练的核心参考消解(Coreference resolution,COREF)学术神经模型的可迁移性,通过评估在多个包含不同注释指南和领域的数据集上的表现来建立新的性能基准。
Apr, 2021
通过使用现成的翻译和词对齐工具,我们引入了一个包含 31 种南亚语言的多语种共指解析翻译数据集(TransMuCoRes)。两个现成的共指解析模型使用 TransMuCoRes 与一份具有手工注释的印地语共指解析数据集的连接进行训练,最佳模型在印地语黄金集上的 LEA F1 得分和 CoNLL F1 得分分别为 64 和 68。此研究是首次在印地语黄金集上评估了一个端到端共指解析模型,并强调了当前共指评估指标在存在拆分先行词的数据集上的局限性,倡导开发更合适的评估指标。
Feb, 2024