贝叶斯段落向量
提出了一种名为 “Paragraph Vector” 的无监督算法,用于从文本段落、句子和文档等长度可变的文本片段中学习固定长度的特征表示,该算法能够克服 Bag-of-words 模型的两个主要弱点,经实验证明,Paragraph Vectors 在文本分类和情感分析任务上取得了新的最佳表现。
May, 2014
本文针对段落向量的应用进行研究,评估其在文本相似度计算方面的性能,同时探究其向量操作在语义任务上的效果。通过对比潜在狄利克雷分布模型等其他文本建模算法,实验结果表明段落向量方法在性能上优于其他方法,并提出了改进模型提高嵌入质量的简单方法。
Jul, 2015
本文研究了稠密分布式文本数据表示的两种新型神经模型:一种用于学习文档级表示,另一种用于学习词级表示。我们提出的模型分别在信息检索和语义关系识别等任务中优于现有方法,并且直接从原始文本数据中学习嵌入。其中,词级表示模型不同于以往的模型,可以用梯度下降算法进行训练。
Jan, 2019
本文介绍了 Binary Paragraph Vector 模型,它是一种使用简单的神经网络生成高效信息检索的短二进制编码。我们发现,Binary Paragraph Vector 在使用更少的位数时优于自编码二进制编码,并在转移学习场景中评估它们的精度,结果表明,二元段向量可以捕获与各个特定领域相关的语义。最后,我们提出了一种同时学习短二进制码和长实数表示的模型,可用于在大型文档集合中快速检索高度相关的文档。
Nov, 2016
介绍了一种适用于高级自然语言处理的句子向量编码框架,该框架可以从编码器 - 解码器模型中提取具有相似向量表示的常见语义信息的句子 latents 表示。我们将句子表示的应用用于两个不同的任务 -- 句子复述和段落摘要,使其适用于常用的循环框架处理文本。实验结果有助于深入了解向量表示适用于高级语言嵌入。
Sep, 2018
本文定义了能够为句子产生分布的概率模型,最佳表现的模型将每个单词视为线性转换算子应用于多变量高斯分布,并通过从定义的模型中进行训练,演示了实现句子特定性的自然方式。虽然我们的模型是整体最佳表现的,但通过句子向量的范数表示来表示句子的特异性的简单架构也能够表现句子的特异性。质性分析表明,我们的概率模型捕获了句子涵盖并提供了分析单词特异性和精确性的方法。
May, 2020
利用神经网络对单词进行矢量表示后,本文探讨了在自动文摘的语境下,矢量表示的句子向量的特性,包括其与文档向量之间的余弦相似度与句子重要性的强关联、向量语义可用于识别和纠正选择的句子和文档之间的差距以及有效摘要所需的特定维度的相关性等。同时,本文还在多种句子嵌入方法之间进行了特征比较及分析,这些洞见都可应用于远远超出自动文摘领域的句子嵌入应用。
Oct, 2018
本文提出结合使用 Bi-LSTM 和段落向量作为印尼情感分析的方法,解决了 Bi-LSTM 在序列处理中文本片段位置不影响情感分类的问题,并进行了多个案例研究来验证了该方法的实用性。
Sep, 2020
本文介绍了一种基于可扩展的贝叶斯神经词嵌入算法,该算法依赖于 Skip-Gram 目标的变分贝叶斯解决方案,并提供了详细的步骤描述。我们在六个不同的数据集上展示实验结果,说明该算法在词类比和相似性任务上的表现与原始 Skip-Gram 方法相当。
Mar, 2016
本研究提出了一种无监督学习的句子编码器,使用连续的文本数据训练编码器 - 解码器模型,并通过线性模型对其进行了 8 项任务的评估,结果表明该编码器具有高度泛化的句子表示能力,可在实践中发挥良好的效果。
Jun, 2015