Oct, 2023

KeyGen2Vec: 通过多标签关键词生成在问答中学习文档嵌入

TL;DR我们的研究旨在通过使用序列到序列(Seq2Seq)文本生成器学习文档嵌入,以减少对标签监督的依赖,并将关键短语生成任务重新形式化为基于社区的问答(cQA)中的多标签关键词生成。实证结果显示,相对于多标签关键词分类器,KeyGen2Vec 在纯度、归一化互信息(NMI)和 F1 值指标上的整体优势高达 14.7%。有趣的是,尽管在评估数据集中,通过标签监督学习嵌入的绝对优势普遍是高度正面的,但在 Yahoo!cQA 上,使用大量潜在主题标签的分类器中,KeyGen2Vec 在竞争上表现出色。