用于无监督依存句法分析的 CRF 自编码器
通过深度神经网络处理输入进一步编码为潜在变量,包括在序列中使用连续潜在变量对输入进行编码的局部自编码分析器(LAP)和在依存树中使用依赖树作为潜在变量对输入进行编码的全局自编码分析器(GAP),使用统一结构和不同的损失函数处理有标记和无标记的数据,并在 WSJ 和 UD 依存解析数据集上进行实验,展示模型能够利用未标记的数据来提高性能,并超越以前提出的半监督模型。
Nov, 2020
本研究提出了一个神经条件随机场自编码器模型,能够直接使用 ELMo 词汇表示并同时将手工设计特征加入到解码器中,实现无监督的 POS 标注任务,并在多语言大型数据集上取得了显著优势。
Mar, 2022
本文介绍了一个用于重叠的全局特征的无监督学习结构化预测的框架,提出了一个基于特征丰富的条件随机场对可观察数据进行条件预测的潜在表示方法,并使用具有封闭形式的最大似然估计的模型来(重新)生成输入的重建,使得无需进行不切实际的独立性假设或限制可用特征类型的情况下能够有效地进行学习,并示范了与传统自动编码器、后验正则化和多视图学习方面的有见地的联系。接着将模型实例化应用于两个经典的自然语言处理任务:词性归纳和比对文本词汇对应,并证明训练我们的模型可以比可比的特征丰富基线方法更加高效。
Nov, 2014
本文提出一种新的学习策略,该策略基于双重分解方法,联合学习生成模型和判别模型,有效提高了它们的学习结果,并在 UD 树库上取得了 30 种语言的最新成果。
Aug, 2017
我们提出了一种新颖的半监督方法,应用于序列转换和语义分析。该方法包含基于生成模型的无监督成分,在该模型中,潜在的句子生成不成对的逻辑形式,我们将此方法应用于许多语义解析任务,重点关注训练数据标记不足的领域,并使用合成逻辑形式扩充这些数据集。
Sep, 2016
提出了一种简单而有效的依赖树导向的 LSTM-CRF 模型,以对命名实体识别(NER)任务中的完整依赖树进行编码并捕捉其相关属性,从而显著提高 NER 和实现领先水平,并发现依赖关系和依赖树提供的长距离交互是其主要原因。
Sep, 2019
为解决语篇树结构数据不足的问题,本文提出了一种基于无监督学习和隐式树归纳框架扩展的自动编码目标策略,可应用于生成语法分析、语篇分析等任何树状结构目标。
Oct, 2022
通过无监督学习的隐式树归纳框架,提出了一种新的策略来生成结构化的文本,例如语法分析、话语分析等,以及更倍覆盖的话语树库,并在多个领域中展示了具有前景的结果。
Dec, 2020
该研究提出了一种基于语法规则的非监督句法树生成方法,利用了语言的通用语法知识,采用强化学习和自编码器等技术,在 MNLI 和 WSJ 两个基准数据集上实现了最好的结果。
May, 2021
为了改善句法解析器,我们提出了一种新的潜变量生成模型,可以使用大量的未标记文本来进行半监督学习,并通过可微的动态规划来提高解析器的准确性。
Jul, 2018