多义词嵌入的概率 FastText
本篇论文提出了一种新的方法,基于监督式消歧,为每个单词建立多个嵌入向量,从而针对字面意思和文本语境对不同主题进行消歧,以及在神经依赖分析上具有更好的错误率表现。
Nov, 2015
本研究详细介绍了一个基于丰富的单词嵌入的组成分布式框架,旨在促进句子中单词之间的交互,并使用环境中的句法信息来增强向量。研究结果表明,该框架在 MSRPar 任务上取得了具有代表性的结果。
Aug, 2015
该文提出了一种基于主题模型的 skip-gram 方法来学习多原型词嵌入,同时介绍了一种修剪嵌入的方法,用于代表每个主题中每个单词的概率表示, 并将我们的嵌入用于展示它们可以强烈地捕获上下文和词汇相似性,并优于各种最先进的实现。
Sep, 2019
本论文研究多义词汇的表示,提出使用注意力机制将其集成到神经网络架构中,在逆向字典任务中获得更好的性能。实验结果表明,多义词汇在输入序列和目标表示方面的应用可以获得大幅度的提高。还提供了对意义分布和学习注意力的分析。
Apr, 2019
提出一种扩展 Skip-gram 模型的方法,它可以高效地学习每个单词类型的多个嵌入,通过联合进行词义辨别和嵌入学习,非参数地估计每个单词类型的很多不同的词义,并通过在一个拥有近 10 亿标记的语料库上训练一台机器的演示,展示了它的可扩展性。
Apr, 2015
本文提出两种改进的解决方案,通过将上下文多义词嵌入视为噪声(去除)和通过生成聚类级别的平均锚嵌入以替换上下文多义词嵌入,提高了跨语言语境下上下文词嵌入对齐的微观性能,同时不会损害双语词汇表归纳任务的宏观性能;对于无监督对齐,我们的方法在双语词汇表归纳任务中显著提高了 10 多分。
Sep, 2019
本文研究了词向量的解释问题,提出了一种算法可通过上下文信息和目标词语推断其意义,进而利用循环神经网络生成该词汇的定义,实现对词向量的直接解释。同时,作者提出了一个高质量的词汇上下文 - 定义数据集,用于词义消歧与定义建模。经实验测试,该方法在 BLEU 评分和人工评估测试中表现出卓越的性能。
Sep, 2018
本文提出了一种基于 FastText 和子词(subwords)的方法,通过监督学习拟合拼写错误,使得单词的嵌入向量更加适用于包含大量未登录词的文本,并在公开测试数据集上对内在和外在的 NLP 任务进行了实验验证。
May, 2019
本文提出了一种基于子词级别的词向量生成模型来解决传统词向量模型无法应对未登录词、破音字等问题,并在英文词汇相似性任务和 23 种语言的词性标注和变形属性的联合预测任务中实现了最优表现。
Sep, 2018