神经成分句法分析器的跨域泛化
通过使用神经网络的词表示方法,在与源领域语法相似的情况下,重新审视了领域适应。并提供了一种简单的方法,通过使用少量的部分注释来适应解析器。文章提供的新算法的结果,使华尔街日报测试集的最新单模型状态达到 94.3%,比之前最先进的 92.6%有一个绝对提高了 1.7%。
May, 2018
研究了现代和经典的组成分析方法的差异,以及神经网络在此领域的应用。高性能的神经模型代表了最新的工作,实验发现该模型隐式编码了过去语法和词汇表明确提供的信息,暗示这种支撑可以被强大的通用神经机制取代。
Apr, 2018
本文研究了两种概念简单的本地神经模型,在成分分析中取得了高度竞争的结果,分别实现了 PTB 和 CTB5.1 中的标记支架 F1 得分为 92.4%和 87.3%。
Aug, 2018
本文研究将非局部特征注入本地基于跨度的解析器的训练过程中,通过预测组成成分 n-gram 非局部模式并确保非局部模式与本地成分的一致性,结果显示,我们的方法在 PTB 和 CTB 上均优于自我注意解析器,在 PTB 上达到 BERT 的最新性能(95.92 F1),并在 CTB 上获得强大的性能(92.31 F1)。与基线相比,在多语言和零 - shot 跨领域设置中,我们的解析器也实现了更好或具有竞争力的性能。
Sep, 2021
本文提出了一种基于领域本体的框架,通过生成人类可理解的自然语言模板,从而将自然语言句子转化为机器可读的含义表示;并解决了语义解析在大规模领域中由训练数据的获取以及模型推广的复杂度所面临的挑战,该框架在六个领域进行数据训练,证明了其能快速且低成本地进行语义解析。
Dec, 2018
本文提出了一种序列到序列的注意力重点改进的方法,用于跨域语义分析的域间适应问题,并且对预先训练的词嵌入进行了标准化,这种方法在 Overnight 数据集上有显着的改进。
Apr, 2017
采用领域无关的注意力增强序列到序列模型在一大合成语料库的标注基础上取得了最先进的效果,训练小规模人工标注的数据集时也达到了标准解析器的表现,且较大程度上提高了数据利用率和处理速度。
Dec, 2014
在研究中,我们证明了高资源语言(如英语)在 RST 解析方面的性能并没有变得可靠,而我们使用两个最大的英语 RST 语料库在新闻领域中研究了数据多样性对解析稳定性的影响,结果表明异构训练是获得稳定且可推广模型的关键。同时,我们还提供了模型输出的误差分析和跨领域性能的研究。
Feb, 2023
该研究提出了两个快速神经组合模型,用于句法分析,分别是二元模型和多分支模型,它们的理论复杂度是次二次的,实际复杂度较低,其中二元模型在 Penn Treebank 上取得了 92.54 的 F1 分数,并以 1327.2 个句子 / 秒的速度进行解析。同时,该模型结合 XLNet,准确率接近英文句法分析的最新水平,并能够观察到 Penn Treebank、Chinese Treebank 和 Keyaki Treebank(日本)在训练和推理过程中的句法倾向和头向性。
Jun, 2021