通过 PU 学习学习低资源语言的单词嵌入
通过对单词共现矩阵的Hellinger PCA,大大简化了单词嵌入的计算,从而成功地生成了适合于命名实体识别和影评任务的新单词嵌入,同时展示了深度学习如何提供一种简单方法来适应特定任务。
Dec, 2013
探讨了如何利用多变量高斯分布建立的词嵌入模型,在词性归纳任务中取代多项式分布,并通过实验表明在8种语言中获得了一致性的提升。同时分析了在诱导词嵌入时的各种选择对后续词性归纳结果产生的影响。
Mar, 2015
通过系统比较四种不同的方法,本研究对于在四个不同语言对上诱导跨语言词向量的方法进行了评估,包括内在评估和外在评估,并展示在某些任务上,廉价监督模型的性能是有竞争力的。
Apr, 2016
本文探讨使用基于计数和基于预测结构构建的多种类型词向量嵌入在两个特定任务中的表现,即关系评估和方言识别,同时展示了这些嵌入的实用性以及在下游任务中的有效性。
Jul, 2016
我们提出了一种基于标准神经网络架构的简单,高效的令牌嵌入模型,并通过大量未注释的文本学习了令牌嵌入,评估它们作为基于少量注释的数据训练的词性标注器和依存分析器的特征,发现词嵌入在各种上下文窗口和训练集大小下都能一致优于基准预测模型。
Jun, 2017
训练单词嵌入与高阶n-gram嵌入同时可以帮助消除上下文信息,从而得到更好的单词嵌入。通过在各种任务上显着优于其他竞争性单词表示模型,我们实证了我们的假设的有效性。
Apr, 2019
本文重现了Artetxe等人(2018b)的实验,探讨了全无监督交叉语言词向量映射的鲁棒自学习方法,并通过引入4种与原始文献所提出的语言不太相似的语言,进一步研究了其模型的可靠性。通过对合理超参数的网格搜索,评估了其模型的稳定性,并提出了对实现完全可重复性研究的重要建议。
Dec, 2019
本文提出了一种多重词向量模型,将不同单词之间的关系映射到嵌入空间中,从而实现更好的语义解析和性能提升。实验证明该模型能更好地区分单词之间的不同关系且维持了嵌入向量的有效性。
Jan, 2020
跨语言句子嵌入领域最近取得了很大的进展,但是由于平行语料的稀缺性,对于低资源语言的研究相对滞后。本文表明当前模型中低资源语言的跨语言词表示与高资源语言的对齐程度明显不足。为了解决这个问题,我们引入了一种新的框架,通过使用现成的词对齐模型,显式地对英语和八种低资源语言之间的单词进行对齐。该框架包含三个主要的训练目标:对齐的单词预测、单词翻译排序,以及广泛使用的翻译排序。我们通过在双语检索任务上进行实验证明了我们的方法,该方法在低资源语言的句子嵌入上取得了显著的改进。此外,所提出模型在高资源语言上更广泛任务的竞争性表现凸显了其实用性。
Apr, 2024