一种生成型词嵌入模型及其低秩半正定解决方案
本文提出了一种新的生成模型,将先验用于计算词汇统计量的闭合形式表达式,从而为非线性模型提供了理论上的证明,并帮助解释了低维度语义嵌入中线性代数结构的存在,以及解决了词汇类比问题。
Feb, 2015
本文提出一种生成主题嵌入模型,通过结合局部和全局单词共现模式,将局部和全局信息融合到主题表示中,从而在低维空间中表示文档,并在两个文档分类任务中表现优于八种现有方法,并且即使仅基于一个文档,也能生成连贯的主题。
Jun, 2016
通过深度生成模型进行文本压缩,利用离散语言模型分布作为文档的潜在表示,生成模型引入离散语言模型的概念,通过变分自编码器进行推断,本研究在大量监督数据训练的情况下,得出抽象和提取式压缩的最新成果,并探索半监督压缩场景。
Sep, 2016
通过提出Pairwise Inner Product (PIP) loss提出了一种新的度量词嵌入非相似性的方法,并使用矩阵摄动理论揭示了词嵌入维度选择中的基本偏差-方差权衡,同时阐明了词嵌入过度拟合的鲁棒性。
Dec, 2018
本研究提出了一种新的主题模型,嵌入式主题模型(ETM),通过将传统的主题模型与词嵌入技术相结合,成功发现了即使在包含生僻词和停用词的大词汇表中也具有可解释性的主题。此外,研究还开发了高效的变分推理算法来拟合ETM进行预测。
Jul, 2019
该研究采用动态主题模型和词嵌入模型组合设计了一种动态嵌入主题模型,通过向每个时间步长中的嵌入表示赋值主题,该模型能够学习到平滑的主题轨迹,并在三个不同的语料库上发现,在文档完成任务中,该模型优于动态LDA,而且比LDA更易于训练。
Jul, 2019
本文通过对现有单词嵌入方法的特点和分类任务的分析,将单词嵌入方法划分为传统方法和基于神经网络的方法,揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。
Mar, 2023
改进词表示学习,我们提出了一种概率先验,它可以无缝地与词嵌入模型集成。不同于先前的方法,词嵌入被看作是一种概率生成模型,它使我们能够对词表示学习施加先验进行正则化。所提出的先验不仅增强了嵌入向量的表示,还提高了模型的鲁棒性和稳定性。该先验的结构简单而有效,可以很容易地实现并灵活地插入到大多数现有的词嵌入模型中。广泛的实验证明了所提出的方法在各种任务上改善了词表示。
Sep, 2023