可微扰动和解析:用结构化变分自编码器进行半监督解析
本文介绍了在半监督下对自然语言句子进行解析的工作,重点是去除词汇的依赖关系解析器的多源跨语言转移。首先,评估了树库注释风格对解析性能的影响,重点是介词附着风格。然后,我们提出了KLcpos3,一种经验性的语言相似度测量方法,专门用于多源去词汇解析器转移中源解析器加权。最后,基于训练解析器模型的插值,引入了一种新的资源组合方法。
Jun, 2015
我们提出了一种新颖的半监督方法,应用于序列转换和语义分析。该方法包含基于生成模型的无监督成分,在该模型中,潜在的句子生成不成对的逻辑形式,我们将此方法应用于许多语义解析任务,重点关注训练数据标记不足的领域,并使用合成逻辑形式扩充这些数据集。
Sep, 2016
本文介绍了 StructVAE 这样一种半监督语义解析的变分自编码模型,通过学习来自有限的并行数据和广泛可用的未标记的自然语言表述,构建 MRs 树状结构隐藏变量,实验表明,结合额外的未标记数据,StructVAE 可以超越强有力的监督模型在 ATIS 领域和 Python 代码生成任务上的表现。
Jun, 2018
本文研究在保证依存分析精度不受影响的情况下,如何去除嵌入式特征和减小其规模,以构建适用于多种不同语言的轻量级解析器,并在 Universal Dependencies 数据集上进行了实验。实验证明,对于多数树库而言,可以去除 grand-daughter 特征且不产生显著差异,同时也证明了可以显著降低嵌入向量的大小。
Oct, 2018
介绍了一种基于多任务可变方法的半监督序列标注模型,该模型涵盖了生成模型和判别模型,并探索了一些潜在变量配置方案,能更好地标记数据,使得在8个序列标注数据集中其性能优于标准的顺序基线模型,并且在无标记数据的情况下还有进一步的提升。
Jun, 2019
本文讨论了使用预训练架构(而非解码)进行单语种全刻度句法分析(成分和依赖)的问题,并使用序列标注作为模型,探讨了不同词向量的句法敏感性。实验分析显示,使用预训练编码器的结果优于现有序列标记解析器,F1评分为93.5%(PTB)和78.8%(EN-EWT UD)的限制条件下。
Feb, 2020
通过深度神经网络处理输入进一步编码为潜在变量,包括在序列中使用连续潜在变量对输入进行编码的局部自编码分析器(LAP)和在依存树中使用依赖树作为潜在变量对输入进行编码的全局自编码分析器(GAP),使用统一结构和不同的损失函数处理有标记和无标记的数据,并在WSJ和UD依存解析数据集上进行实验,展示模型能够利用未标记的数据来提高性能,并超越以前提出的半监督模型。
Nov, 2020
本研究比较了两种半监督学习技术,即tri-training和预训练词嵌入,在依存句法分析任务中的表现。研究探讨了语言特定的FastText和ELMo嵌入以及多语言BERT嵌入,并选择了匈牙利语、维吾尔语和越南语等语言进行研究。结果表明,预训练词嵌入比tri-training更有效地利用了未标记数据,但这两种方法可以成功地结合使用。
Sep, 2021
研究利用深度潜在变量模型进行半监督任务,提出了VSAR和DDL两个模型,组合使用可提高性能,在已知文本对的情况下使用DDL+VSAR进行半监督学习,使用提出的权重初始化方法解决冷启动问题,经实验验证,该模型在数据不完整的情况下具有很好的性能。
Jan, 2023