May, 2014

句子和文本的分布式表示

TL;DR提出了一种名为 “Paragraph Vector” 的无监督算法,用于从文本段落、句子和文档等长度可变的文本片段中学习固定长度的特征表示,该算法能够克服 Bag-of-words 模型的两个主要弱点,经实验证明,Paragraph Vectors 在文本分类和情感分析任务上取得了新的最佳表现。