掩码词性模型:建模长上下文是否有助于无监督词性标注?
研究预训练语言模型如何通过无监督学习中的遮盖和预测标记产生语言结构和改进下游性能;理论认为,预训练语言模型通过遮盖具有暗示下游任务的填空作用,获得有用的归纳偏见。本文构建了类似填空的掩码,并用于三个不同的分类数据集,证明了预训练模型的绝大部分性能提升来自没有与词典关联的通用掩码;我们演示了掩码语言模型(MLM)目标与学习图形模型中的统计依赖的现有方法之间的对应关系,并利用这一点派生出一种提取该模型中学习到的统计依赖的方法,这些依赖以句法结构的形式编码。通过对暗示的统计依赖结构进行最小生成树的无监督解析评估,在无监督解析方面,简单地形成最小生成树优于经典的无监督解析方法(58.74 vs. 55.91 UUAS)
Apr, 2021
通过多语言学习,并运用层次贝叶斯模型和马尔可夫蒙特卡洛采样技术,我们证明了在无监督词性标注中应用多语言学习的有效性,且在可用语言数量增加时,性能稳定提升。
Jan, 2014
使用词嵌入的双向 LSTM 循环神经网络模型(BLSTM-RNN)在词性标注任务中表现出色,可以达到 97.40%的准确率,而且不需要使用形态学特征,同时具备与斯坦福词性标注器相当的性能。
Oct, 2015
本研究采用词、字符和 Unicode 字节嵌入比较 bi-LSTM 和传统的 POS 标注器,在 22 种语言中取得了最优性能,并表明 bi-LSTM 对于训练数据大小和标签污染的敏感度被过高估计。
Apr, 2016
介绍了一种基于掩码采样过程(MSP)的方法,以解决长文本医疗领域的诊断预测问题。该方法可以识别出较多的临床信息文本块,并且比之前最先进的方法运行速度更快,可用于任何文本分类器。
Sep, 2022
本文提出了一种新的基于上下文表示扰动评分的图表法提取已屏蔽语言模型中的句法树的方法,此方法在英语和八种语言的数据集上均表现出优异性能,能替代无监督语法分析方法。
Jun, 2023
研究社交媒体上社会语言的使用及其对自然语言处理的影响,参考三种不同语言对的社交媒体数据,通过条件随机场分类器开发出一个基于富有语言特征的词性标注系统。
Feb, 2017
本文介绍了一种名为多尺度位置编码(Ms-PoE)的简单而有效的插件式方法,用于增强大型语言模型(LLMs)处理位于上下文中部的相关信息的能力,并通过广泛的实验证明了该方法的有效性。
Mar, 2024
本文提出了一种新的自然语言无监督语法分析模型,StructFormer,可以同时识别依存结构和组成结构,通过引入一个新的解析框架,该框架可以一起生成组成树和依赖图,并通过新颖的依赖约束的自我关注机制将依赖关系集成到 transformer 中,在无监督组成句法分析、无监督依存分析和蒙特卡罗语言建模方面取得了强大的结果。
Dec, 2020