本文提出了基于指数族分布的 Word Embeddings 方法,并在神经科学、市场篮子分析和电影推荐系统等领域进行了应用实例研究。该方法能更好地重构保持数据并找到有趣的定性结构。
Aug, 2016
本文提出了动态词嵌入的概率框架,通过分析三个历史文本集合,证明了动态词嵌入提供比传统词嵌入更好地适应和更好地捕捉语言变化的有趣模式。
Mar, 2017
文章提出了简单且有效的 FGS2EE 方法,通过将语义类型词的嵌入与现有实体嵌入进行线性聚合,注入了细粒度的语义信息进入实体嵌入,以减少其鲜明性并便于上下文语境学习。实验证明,这种嵌入方法在实体链接任务中表现优于先前的方法,并取得了新的最佳效果。
Jun, 2021
提出了一种生成词嵌入模型,可用于更复杂的潜在因素模型,推理基于低秩迹近似和区块回归,具有概率解释性和数据保持特性。
Aug, 2015
该研究提出了一种统计方法来揭示密集词嵌入中的潜在语义结构,并引入了一个新的数据集(SEMCAT),其中包含超过 6500 个在 110 个类别下语义分组的单词。研究还提出了一种量化词嵌入可解释性的方法,这是一种实用的替代方法,不需要人为干预。
Nov, 2017
本研究总结了最近的构建定长、密集、分布式单词表示的主要策略,并阐述了这些表示通常被称为单词嵌入,并除了编码出色的句法和语义信息之外,还被证明在许多下游自然语言处理任务中有用的额外特征。
Jan, 2019
本文探讨使用无监督学习的方法,通过单词嵌入在词向量空间内学习语义相似性,以实现对文本分类任务的性能优化。研究发现,使用领域特定的词嵌入可以提高分类性能。
May, 2017
本研究探讨了在文本分割算法中应用语义单词嵌入的方法,包括 C99 分割算法和灵感来自分布式单词向量表示的新算法,并通过开发一个用于讨论一类分割目标的通用框架,研究了贪婪与精确优化方法的有效性,建议了一种新的迭代改进技术来提高贪婪策略的性能,将结果与已知基准进行比较并演示了我们的内容向量分割(CVS)在 Choi 测试集上的未经训练方法的最先进性能。最后,我们将分割过程应用于从 arXiv.org 数据库中提取的学术文献的野外数据集。
Mar, 2015
本文提出了一种基于随机游走的网络表征学习技术,使用指数族分布来捕捉节点之间的丰富交互模式,并研究了该模型的三个具体实例,实验结果表明该技术在两个下游机器学习任务中胜过基线方法。
Nov, 2019
本文通过引入稀疏表示的思想将 word embeddings 应用到 sentence embeddings 中,基于主题连贯性方法引入了一种新的、定量的自动化评估指标,并在电影对话数据集和 MS COCO 数据集的场景描述上观察到了 interpretability 的提高。
Sep, 2018