一种基于概率矩阵分解的词嵌入模型
该研究提出了一种基于概率的语言模型,可以跟踪个别单词随时间的语义演变,并通过嵌入空间中的潜在轨迹表示单词和上下文。研究发现,该动态模型推断的单词嵌入轨迹更易解释,并且具有更高的预测性可能性。
Feb, 2017
本文提出了一种新的主题建模框架,在该框架中,每个文档都被视为一组单词嵌入向量,每个主题都被建模为嵌入空间中的嵌入向量,并在相同的向量空间中嵌入单词和主题,定义一种方法来衡量文档单词的嵌入向量与主题嵌入向量之间的语义差异,并优化主题嵌入以最小化所有文档的期望差异。实验结果表明,所提出的方法在发现更连贯和多样化的主题以及提取更好的文档表示方面具有竞争性的性能。
Mar, 2022
该研究通过概率隐变量序列模型,使用前向算法实现连续状态 Kalman 滤波器来学习单词的表示。通过 EM 算法准确地优化参数,使用所学习到的单词嵌入作为标记任务的特征,在标记任务中实现显著的准确度改进,并通过线性递归神经网络通过我们的模型的参数来初始化非线性递归神经网络语言模型,降低了其训练时间和困惑度。
Feb, 2015
本文提出使用 von Mises-Fisher 分布来建模单元球上的单词密度,以构建主题模型,并基于随机变分推理提出了一种高效的推断算法,实现了自然利用词嵌入的语义结构,同时能够灵活地发现主题数量。该方法在两个不同的文本语料库中拥有更好的主题连贯性并提供有效推理。
Apr, 2016
该研究提出了一个名为 STE 的框架,可以以统一的方式学习词嵌入和潜在主题,从而解决多义问题,并在有效且高效的方式下生成有用的主题特定的词嵌入和连贯的潜在主题。
Jun, 2017
本篇论文介绍了一种基于词向量和马尔科夫随机场正则化模型的主题模型,从而改进对小文本数据的话题推断。结果表明,与传统主题模型相比,改进后的方法可以更有效地对短文本数据进行话题建模。
Sep, 2016
本文提出一种生成主题嵌入模型,通过结合局部和全局单词共现模式,将局部和全局信息融合到主题表示中,从而在低维空间中表示文档,并在两个文档分类任务中表现优于八种现有方法,并且即使仅基于一个文档,也能生成连贯的主题。
Jun, 2016
本文提出了一种集成方法,通过将 GloVe 和 word2vec 的嵌入方式与语义网络 ConceptNet 和 PPDB 的结构化知识相结合,将它们的信息融合成一个具有大型多语言词汇的共同表示,并达到了许多词语相似性评估的最先进性能
Apr, 2016