基于证据的语法转换用于 IE 的 pyBART
本研究提出了一种新的基于依存的混合树模型,将自然语言转换成机器可解释的含义表示,并通过在标准多语言 GeoQuery 数据集上进行的大量实验证明,我们的方法能够在多种语言上实现最先进的性能。
Sep, 2018
本文介绍了用 Universal Dependencies 分析 Tweets 的问题,提出了扩展 UD 指南来覆盖 Tweets 中的特殊结构以及使用新的 Tweet Treebank v2 来解决标注中的歧义,并构建了一个可以将原始 Tweets 解析为 UD 的流水线系统。此外,作者还提出了一种新的方法来精简基于转换的解析器的集合,并在真实情况下验证了该方法的有效性。
Apr, 2018
本文探讨了 Enhanced Universal Dependencies 中坐标结构的表示,通过创造一个大规模的数据集,手动编辑语法图,确定了应该在语义角度传播哪些依赖链接,比较了基于规则和基于机器学习的方法,并提出了一种基于神经图解析器的边缘预测器,超越了目前主要的基于基本层树解析器加转换器的流水线。
Mar, 2021
本研究通过引入泰语通用依存树库(TUD)解决了自动依存解析泰语句子的问题,并通过将预训练的 transformer 作为编码器来训练泰语依存解析模型,在评估结果中表明大多数模型能够胜过前期研究中的其他模型,为泰语依存解析器的最佳组件选择提供了见解,并将实验中的新树库和每个模型的完整预测结果在 GitHub 上进行了共享。
May, 2024
本研究探讨预训练变形金刚语言模型中的注意头在多大程度上隐含捕获了句法依赖关系,并使用两种方法提取每层 / 头 attention 权重中的隐含依赖关系,比较它们与基准 UD 树的差异。结果表明,这些模型有一些跟踪特定依赖类型的专业注意头,但没有表现出比浅显的基准模型更好的整体解析能力。同时,注意权重直接分析不能揭示 BERT-Style 模型已知的语法知识。
Nov, 2019
ParaBART 是一个语义句子嵌入模型,使用基于源句子和目标释义之间语义相似性差异的语法指导解开基于预训练语言模型的嵌入中的语法和语义信息的工作。该方法在英语分析上表现出色,能有效的从语义句子嵌入中删除语法信息,提高对下游语义任务的鲁棒性。
Apr, 2021
该论文介绍了 ADAPT 系统参加 2020 年 IWPT 共享任务的解析增强通用依存关系的方法,采用 UDPipe 和 UDPipe-future 构建管道方法,使用语义依存图解析器或一系列启发式规则来增强依存图,并在语言平均值方面达到了 79.53 分,可以成功实现增强依赖句法分析任务。
Sep, 2020
本文介绍和评估了不同的方法将 Stanford Typed Dependencies (SD) 和 Penn-style 组分树的黄金标准语料库数据转化为最新的英语通用依赖关系 (UD2.2)。结果表明,多种语体下,纯 SD 到 UD 的转换具有高精度,只有 1.5% 的错误率,但如果访问纯语法树之外的注释,如实体类型和指代消解这样的注释,可以进一步提高精度,错误率可以降至不到 0.5%。我们表明,基于成分的转换使用 CoreNLP (自动命名实体识别) 在所有语体中表现不佳,包括在使用黄金成分树时,主要是由于短语语法功能的不充分规范化。
Sep, 2019