规则增强的无监督短语结构句法分析
本文提出了一种基于无监督成分测试的无监督解析方法。通过使用一组转换和一个无监督的神经接受模型来制定无监督解析器,以生成给定句子的树,通过聚合其成分测试判断来评分。并且通过反复改进预测出的树和提高语法性模型之间的相互作用,进一步提高了准确性。
Oct, 2020
我们提出了一种模仿学习的无监督句法分析方法,将 PRPN 诱导的句法知识转移到带有离散句法分析操作的 Tree-LSTM 模型上,并通过 Gumbel-Softmax 训练不断优化其策略以实现更好的语义目标。在 All-NLI 数据集上进行实验,证明我们的方法在句法得分上超过了基准模型,包括 PRPN。
Jun, 2019
该研究使用无标签口语句子和未成对文本数据进行无监督组成语法分析,比较了通过级联自动语音识别和无监督解析器方法以及直接对连续的词级语音表示进行无监督解析器训练的方法,发现后者解析效果更好。此外,准确的分割也可以实现口语句子的准确解析。最后,该研究显示了无需显式归纳偏差的情况下,直接方法也可以正确学习头波方向性。
Mar, 2023
本文分析了几种最近的无监督组分句法分析模型,介绍了强大的基准线,并提出了一种基于少量标注数据的组分句法分析方法,这种方法可以通过简单的数据增强和自我训练进一步提高性能。这表明,为了得出公正的结论,我们应当仔细考虑用于模型开发的标注数据量。
Oct, 2020
本研究介绍了一种新的全自动、无监督的从大型文本语料库中提取依赖语法和相关语法到语义关系映射的方法,若成功,该方法将使得直接从大型未注释语料库中挖掘出用于自然语言理解和生成的所有信息成为可能。
Jan, 2014
采用领域无关的注意力增强序列到序列模型在一大合成语料库的标注基础上取得了最先进的效果,训练小规模人工标注的数据集时也达到了标准解析器的表现,且较大程度上提高了数据利用率和处理速度。
Dec, 2014
本文提出了一种新型的神经语言模型 Parsing-Reading-Predict Networks(PRPN),利用其特定的神经网络结构能够自动识别未标注的句子的句法结构,并利用它来学习更好的语言模型。实验证明,该模型能够发现底层的句法结构,并在单词 / 字符水平的语言模型任务上取得了最先进水平。
Nov, 2017
本研究旨在提高在训练数据中标注少量标签的情况下诱导策略。我们发现最具信息量的语言成分是树状结构中更高层的节点,通常代表复杂的名词短语和句子从句,这些仅占所有成分的 20%。针对标注数据稀疏(例如仅有高层成分标签)的语法诱导,提出了一种适应策略,可以产生与从完全标注的语料库诱导的语法几乎一样好的语法。我们的结果表明,为了取代人工注释员,部分解析器必须能够自动提取更高层次的成分,而不是基本名词短语。
May, 1999
本研究使用 Transformer-based pre-trained language models 并提出一种全新的无监督分析方法,通过引入一个高排名头部的集合,用于从语法角度分析 PLMs 的学习知识,从而提取出 PLMs 的句法知识,并用这些知识来训练神经 PCFG,最终与人类注释的语法树库得到比较。
Oct, 2020