Jul, 2017

通过数据损坏实现高效文档向量表示

TL;DR本文介绍了一个有效的文档表示学习框架,Doc2VecC。Doc2VecC 通过词嵌入的简单平均来表示每个文档,并引入一个数据相关的正则化模型以捕捉文档的语义含义。该模型在训练时能够较好地捕捉文本信息,同时能够在生成文档表示方面与当前最先进算法匹配或超越,并且其模型结构简单,能够高效地处理海量文档。