Oct, 2020

用于无监督探测句法的文本表达深度聚类

TL;DR本文研究使用深度聚类的方法对文本表示进行无监督学习,旨在识别语法信息并实现句法归纳。通过将这些表示联合转换为较低维度的簇友好空间并对其进行聚类,我们验证了该方法的有效性。研究发现,多语言 BERT(mBERT)包含了与英语 BERT(EBERT)相似数量级的英语句法知识。提出的模型可作为无监督的监测方法,可以更加全面、准确地探测模型中的语法知识。我们的模型具备较好的泛化性能,能适用于不同语法形式和不同语种的情况。该方法在 45 个英语 POSI 标签上表现出较强的竞争力,在 10 种语言的 12 个标记 POS 上也取得了最新的研究成果。此外,我们还对语言贫瘠的语言进行了零样本的句法归纳,并取得了较好的效果。