掩码词性模型：建模长上下文是否有助于无监督词性标注？

ACLJun, 2022

掩码词性模型：建模长上下文是否有助于无监督词性标注？

Masked Part-Of-Speech Model: Does Modeling Long Context Help Unsupervised POS-tagging?

Xiang Zhou, Shiyue Zhang, Mohit Bansal

TL;DR提出了 Masked Part-of-Speech Model (MPoSM) 模型，通过模型化任意标签的依赖性并通过 masked POS 重建目标来实现 POS 诱导。在英语 PennWSJ 数据集和包含 10 种不同语言的通用树库上实现了竞争性结果。

Abstract

Previous Part-Of-Speech (POS) induction models usually assume certain independence assumptions (e.g., Markov, unidirectional, local dependency) that do not hold in real languages. For example, the subject-verb agreement can be both long-term and bidirectional. To facilitate flexible dependency modeling, we propose a →

part-of-speech induction masked part-of-speech model tag dependency long-term dependency pos induction

发现论文，激发创造

掩蔽语言模型的归纳偏好：从统计学到句法依赖

研究预训练语言模型如何通过无监督学习中的遮盖和预测标记产生语言结构和改进下游性能；理论认为，预训练语言模型通过遮盖具有暗示下游任务的填空作用，获得有用的归纳偏见。本文构建了类似填空的掩码，并用于三个不同的分类数据集，证明了预训练模型的绝大部分性能提升来自没有与词典关联的通用掩码；我们演示了掩码语言模型（MLM）目标与学习图形模型中的统计依赖的现有方法之间的对应关系，并利用这一点派生出一种提取该模型中学习到的统计依赖的方法，这些依赖以句法结构的形式编码。通过对暗示的统计依赖结构进行最小生成树的无监督解析评估，在无监督解析方面，简单地形成最小生成树优于经典的无监督解析方法（58.74 vs. 55.91 UUAS）

Apr, 2021

多语言词性标注：两种无监督方法

通过多语言学习，并运用层次贝叶斯模型和马尔可夫蒙特卡洛采样技术，我们证明了在无监督词性标注中应用多语言学习的有效性，且在可用语言数量增加时，性能稳定提升。

Jan, 2014

双向长短时记忆循环神经网络进行词性标注

使用词嵌入的双向 LSTM 循环神经网络模型（BLSTM-RNN）在词性标注任务中表现出色，可以达到 97.40％的准确率，而且不需要使用形态学特征，同时具备与斯坦福词性标注器相当的性能。

Oct, 2015

双向长短时记忆模型与辅助损失实现的多语言词性标注

本研究采用词、字符和 Unicode 字节嵌入比较 bi-LSTM 和传统的 POS 标注器，在 22 种语言中取得了最优性能，并表明 bi-LSTM 对于训练数据大小和标签污染的敏感度被过高估计。

Apr, 2016

拓展与解释：解读超长语言模型

介绍了一种基于掩码采样过程（MSP）的方法，以解决长文本医疗领域的诊断预测问题。该方法可以识别出较多的临床信息文本块，并且比之前最先进的方法运行速度更快，可用于任何文本分类器。

Sep, 2022

上下文扭曲揭示组成结构：遮蔽语言模型为隐含的解析器

本文提出了一种新的基于上下文表示扰动评分的图表法提取已屏蔽语言模型中的句法树的方法，此方法在英语和八种语言的数据集上均表现出优异性能，能替代无监督语法分析方法。

Jun, 2023

使用隐马尔可夫模型进行序列标注的领域自适应

该研究论文介绍了一种基于隐藏马尔科夫模型来学习词汇表示，并使用大量未标记数据将这些方法更好地适用于不同领域数据的方法。

Dec, 2013

SMPOST: 用于代码混合的印度社交媒体文本的词性标注器

研究社交媒体上社会语言的使用及其对自然语言处理的影响，参考三种不同语言对的社交媒体数据，通过条件随机场分类器开发出一个基于富有语言特征的词性标注系统。

Feb, 2017

位于中间：通过即插即用位置编码，语言模型更好地使用长上下文

本文介绍了一种名为多尺度位置编码（Ms-PoE）的简单而有效的插件式方法，用于增强大型语言模型（LLMs）处理位于上下文中部的相关信息的能力，并通过广泛的实验证明了该方法的有效性。

Mar, 2024

StructFormer: 联合无监督遮蔽语言建模归纳依存结构和组成结构

本文提出了一种新的自然语言无监督语法分析模型，StructFormer，可以同时识别依存结构和组成结构，通过引入一个新的解析框架，该框架可以一起生成组成树和依赖图，并通过新颖的依赖约束的自我关注机制将依赖关系集成到 transformer 中，在无监督组成句法分析、无监督依存分析和蒙特卡罗语言建模方面取得了强大的结果。

Dec, 2020