分组数据的结构化嵌入模型

Sep, 2017

Structured Embedding Models for Grouped Data

Maja Rudolph, Francisco Ruiz, Susan Athey, David Blei

TL;DR研究使用指数族嵌入的结构化指数族嵌入方法，成功地发现与相关数据组不同的嵌入。研究表明，这种方法具有共享统计信息的优势，并且以国会演讲、购物和摘要等作为实证研究的应用场景。

Abstract

Word embeddings are a powerful approach for analyzing language, and exponential family embeddings (EFE) extend them to other types of data. Here we develop structured exponential family embeddings (S-EFE), a meth

exponential family embeddings group-specific interpretation hierarchical modeling word usage data analysis

发现论文，激发创造

指数家族嵌入

本文提出了基于指数族分布的 Word Embeddings 方法，并在神经科学、市场篮子分析和电影推荐系统等领域进行了应用实例研究。该方法能更好地重构保持数据并找到有趣的定性结构。

Aug, 2016

动态伯努利嵌入在语言演化中的应用

本文提出了动态词嵌入的概率框架，通过分析三个历史文本集合，证明了动态词嵌入提供比传统词嵌入更好地适应和更好地捕捉语言变化的有趣模式。

Mar, 2017

通过语义加强实体嵌入来提高实体链接

文章提出了简单且有效的 FGS2EE 方法，通过将语义类型词的嵌入与现有实体嵌入进行线性聚合，注入了细粒度的语义信息进入实体嵌入，以减少其鲜明性并便于上下文语境学习。实验证明，这种嵌入方法在实体链接任务中表现优于先前的方法，并取得了新的最佳效果。

Jun, 2021

一种生成型词嵌入模型及其低秩半正定解决方案

提出了一种生成词嵌入模型，可用于更复杂的潜在因素模型，推理基于低秩迹近似和区块回归，具有概率解释性和数据保持特性。

Aug, 2015

词嵌入的语义结构和可解释性

该研究提出了一种统计方法来揭示密集词嵌入中的潜在语义结构，并引入了一个新的数据集（SEMCAT），其中包含超过 6500 个在 110 个类别下语义分组的单词。研究还提出了一种量化词嵌入可解释性的方法，这是一种实用的替代方法，不需要人为干预。

Nov, 2017

词向量：一份调查报告

本研究总结了最近的构建定长、密集、分布式单词表示的主要策略，并阐述了这些表示通常被称为单词嵌入，并除了编码出色的句法和语义信息之外，还被证明在许多下游自然语言处理任务中有用的额外特征。

Jan, 2019

使用通用和特定词嵌入来分类研究的翻译阶段

本文探讨使用无监督学习的方法，通过单词嵌入在词向量空间内学习语义相似性，以实现对文本分类任务的性能优化。研究发现，使用领域特定的词嵌入可以提高分类性能。

May, 2017

基于语义词嵌入的文本分割

本研究探讨了在文本分割算法中应用语义单词嵌入的方法，包括 C99 分割算法和灵感来自分布式单词向量表示的新算法，并通过开发一个用于讨论一类分割目标的通用框架，研究了贪婪与精确优化方法的有效性，建议了一种新的迭代改进技术来提高贪婪策略的性能，将结果与已知基准进行比较并演示了我们的内容向量分割（CVS）在 Choi 测试集上的未经训练方法的最先进性能。最后，我们将分割过程应用于从 arXiv.org 数据库中提取的学术文献的野外数据集。

Mar, 2015

指数族图嵌入

本文提出了一种基于随机游走的网络表征学习技术，使用指数族分布来捕捉节点之间的丰富交互模式，并研究了该模型的三个具体实例，实验结果表明该技术在两个下游机器学习任务中胜过基线方法。

Nov, 2019

学习和评估稀疏可解释的句子嵌入

本文通过引入稀疏表示的思想将 word embeddings 应用到 sentence embeddings 中，基于主题连贯性方法引入了一种新的、定量的自动化评估指标，并在电影对话数据集和 MS COCO 数据集的场景描述上观察到了 interpretability 的提高。

Sep, 2018