使用弱监督联合训练无监督句法分析器
本文分析了几种最近的无监督组分句法分析模型,介绍了强大的基准线,并提出了一种基于少量标注数据的组分句法分析方法,这种方法可以通过简单的数据增强和自我训练进一步提高性能。这表明,为了得出公正的结论,我们应当仔细考虑用于模型开发的标注数据量。
Oct, 2020
本研究提出了一种使用远程监督形式的跨度约束技术来提高无监督语法分析性能的方法。通过少量跨度约束,可以大大提高无监督分析系统 DIORA 的性能。我们的实验表明,基于实体的跨度约束可以使英语 WSJ Penn Treebank 的组成分析提高超过 5 F1,并将其扩展到任何易于实现跨度约束的领域,同时在生物医学文本方面,该方法的有效性得到了证明。
Sep, 2021
本研究的主要目的是使一个语义解析器模型从英语语言转移到其他多种语言和领域上,通过机器翻译、释义、多语言预训练模型,我们得出一个基于 Transformer 的语义解析器,用于在德语和中文中准确解析。实验表明,机器翻译结合多组 MT 引擎释义可以近似于多种语言的训练数据,同时我们还成功地将训练数据减半,最终准确度仅低于完整翻译 2%。
Apr, 2020
本文提出了一种基于无监督成分测试的无监督解析方法。通过使用一组转换和一个无监督的神经接受模型来制定无监督解析器,以生成给定句子的树,通过聚合其成分测试判断来评分。并且通过反复改进预测出的树和提高语法性模型之间的相互作用,进一步提高了准确性。
Oct, 2020
本文介绍了一种基于 label 和 span 独立评分的最小神经模型,并证明了该模型不仅与经典的动态规划技术兼容,而且还支持一种基于递归分割的新颖贪心自顶向下推理算法。经实验证明,两种预测方案竞争力强,并且与得分模型的基本扩展相结合,能够实现 Penn Treebank 的单模型最优性能(91.79 F1),并在法语 Treebank 上获得强大的性能(82.23 F1)。
May, 2017
本文提出了一种自我训练算法 Deep Contextualized Self-training (DCST),利用序列标注的表示模型来解决大量标注数据的问题,并通过控制机制将这些模型集成到基础解析器中,并在多语言实验中取得了优异的成绩。
Nov, 2019
该研究使用无标签口语句子和未成对文本数据进行无监督组成语法分析,比较了通过级联自动语音识别和无监督解析器方法以及直接对连续的词级语音表示进行无监督解析器训练的方法,发现后者解析效果更好。此外,准确的分割也可以实现口语句子的准确解析。最后,该研究显示了无需显式归纳偏差的情况下,直接方法也可以正确学习头波方向性。
Mar, 2023
我们提出了一种新的成分分析模型,将分析问题转化为一系列指向任务,支持高效的自上而下编码和学习目标。实验表明,我们的方法在不使用预训练模型的情况下取得 92.78 F1 的结果,使用预训练 BERT,达到了 95.48 F1 和最先进的技术水平相当。此外,我们的方法也在多语种成分分析领域实现了最新的技术进展。
Jun, 2020
本研究提出了一种在多个知识库上进行语义解析的框架,采用弱监督训练。通过多个特定于域的语义分析器(教师)训练一个统一的多域语义解析器(学生)来解决这一挑战。 在标准 Overnight 数据集上,相对于基线技术,该模型在指称准确性方面提高了 20%。
Jun, 2019