通过 PU 学习学习低资源语言的单词嵌入

May, 2018

通过 PU 学习学习低资源语言的单词嵌入

LearningWord Embeddings for Low-resource Languages by PU Learning

Chao Jiang, Hsiang-Fu Yu, Cho-Jui Hsieh, Kai-Wei Chang

TL;DR本文研究如何在仅有数百万个标记的语料库中有效地学习单词嵌入模型，提出了一种利用正未标注学习的方法来分解共现矩阵，并在四种不同语言中验证了该方法的有效性。

Abstract

word embedding is a key component in many downstream applications in processing natural languages. Existing approaches often assume the existence of a large collection of text for learning effective word embedding

发现论文，激发创造

Hellinger PCA嵌入词向量

通过对单词共现矩阵的Hellinger PCA，大大简化了单词嵌入的计算，从而成功地生成了适合于命名实体识别和影评任务的新单词嵌入，同时展示了深度学习如何提供一种简单方法来适应特定任务。

Dec, 2013

利用单词嵌入进行无监督POS词性归纳

探讨了如何利用多变量高斯分布建立的词嵌入模型，在词性归纳任务中取代多项式分布，并通过实验表明在8种语言中获得了一致性的提升。同时分析了在诱导词嵌入时的各种选择对后续词性归纳结果产生的影响。

Mar, 2015

跨语言单词嵌入模型的实证比较

通过系统比较四种不同的方法，本研究对于在四个不同语言对上诱导跨语言词向量的方法进行了评估，包括内在评估和外在评估，并展示在某些任务上，廉价监督模型的性能是有竞争力的。

Apr, 2016

评估无监督的荷兰语单词嵌入作为语言资源

本文探讨使用基于计数和基于预测结构构建的多种类型词向量嵌入在两个特定任务中的表现，即关系评估和方言识别，同时展示了这些嵌入的实用性以及在下游任务中的有效性。

Jul, 2016

学习将单词嵌入上下文以执行句法任务

我们提出了一种基于标准神经网络架构的简单，高效的令牌嵌入模型，并通过大量未注释的文本学习了令牌嵌入，评估它们作为基于少量注释的数据训练的词性标注器和依存分析器的特征，发现词嵌入在各种上下文窗口和训练集大小下都能一致优于基准预测模型。

Jun, 2017

利用形态和音位子单元表示将词嵌入适应新语言

使用语言学驱动的子词单元：音素、词素和字形，提高低资源语言下的自然语言处理、实体名称识别和机器翻译表现。

Aug, 2018

通过分离上下文n元信息来改进词向量嵌入

训练单词嵌入与高阶n-gram嵌入同时可以帮助消除上下文信息，从而得到更好的单词嵌入。通过在各种任务上显着优于其他竞争性单词表示模型，我们实证了我们的假设的有效性。

Apr, 2019

一种强大的自学习方法，用于完全无监督的跨语言单词嵌入映射：同时使该方法具有强大的可重现性

本文重现了Artetxe等人（2018b）的实验，探讨了全无监督交叉语言词向量映射的鲁棒自学习方法，并通过引入4种与原始文献所提出的语言不太相似的语言，进一步研究了其模型的可靠性。通过对合理超参数的网格搜索，评估了其模型的稳定性，并提出了对实现完全可重复性研究的重要建议。

Dec, 2019

复合词词嵌入用于选择偏好习得

本文提出了一种多重词向量模型，将不同单词之间的关系映射到嵌入空间中，从而实现更好的语义解析和性能提升。实验证明该模型能更好地区分单词之间的不同关系且维持了嵌入向量的有效性。

Jan, 2020

利用词对齐改进低资源语言的跨语言句子嵌入

跨语言句子嵌入领域最近取得了很大的进展，但是由于平行语料的稀缺性，对于低资源语言的研究相对滞后。本文表明当前模型中低资源语言的跨语言词表示与高资源语言的对齐程度明显不足。为了解决这个问题，我们引入了一种新的框架，通过使用现成的词对齐模型，显式地对英语和八种低资源语言之间的单词进行对齐。该框架包含三个主要的训练目标：对齐的单词预测、单词翻译排序，以及广泛使用的翻译排序。我们通过在双语检索任务上进行实验证明了我们的方法，该方法在低资源语言的句子嵌入上取得了显著的改进。此外，所提出模型在高资源语言上更广泛任务的竞争性表现凸显了其实用性。

Apr, 2024