Word Tour: 通过旅行商问题实现一维词向量嵌入
本文提出了一种评估单词表示学习方法的方法,即通过评估不同初始值下学习得到的单词表示的一致性。通过提出的度量标准,评估结果不仅揭示了单词嵌入方法的内在特性,还与下游任务的其他评估指标具有良好的相关性,这对于开发新的单词嵌入方法具有重要的鲁棒性特征的考虑是有用的。
May, 2016
提出了一种基于数据效率和简单监督任务的评估方法,系统评估了一些词嵌入模型,并得出了新的性能特征见解,例如词相似性和类比常常用非线性编码,质疑了基于余弦相似度的无监督评估方法。
Feb, 2017
本文提出了一种基于子词级别的词向量生成模型来解决传统词向量模型无法应对未登录词、破音字等问题,并在英文词汇相似性任务和23种语言的词性标注和变形属性的联合预测任务中实现了最优表现。
Sep, 2018
本文提出了一种名为Word Mover's Embedding(WME)的崭新方法,用于建立无监督文本分类的文档嵌入,同时比较了此方法与当前最佳方法在9个基准文本分类数据集和22个文本相似性任务上表现,结果均表明WME能够达到或超越当前最佳方法,并在短文本问题上获得更高的准确性。
Oct, 2018
通过提出Pairwise Inner Product (PIP) loss提出了一种新的度量词嵌入非相似性的方法,并使用矩阵摄动理论揭示了词嵌入维度选择中的基本偏差-方差权衡,同时阐明了词嵌入过度拟合的鲁棒性。
Dec, 2018
训练单词嵌入与高阶n-gram嵌入同时可以帮助消除上下文信息,从而得到更好的单词嵌入。通过在各种任务上显着优于其他竞争性单词表示模型,我们实证了我们的假设的有效性。
Apr, 2019
提出了一种概括单词嵌入的方法,称为PBoS模型,该模型基于单词的拼写,同时对子词划分建模和计算子词组合的单词嵌入,并在词汇相似性和词性标注实验中显示出较好的性能,不需要明确的形态学知识。
Oct, 2020
本文针对词嵌入在自然语言处理中的应用,通过对Word2vec、GloVe等模型进行剖析,提出了一种通用形式,揭示出制作词嵌入所需的共同条件,并强调理论研究对未来模型开发的指导作用。
Nov, 2020