Jun, 2016

数据驱动方法在多标签分类中的标签空间划分较随机选择更优

TL;DR本研究提出了利用社交网络中 5 种数据驱动的社区检测方法来替代 RAkELd 中的随机等分划分来划分多标签分类的标签空间,我们使用训练数据构建标签共现图,并对标签集进行社区检测。通过对 12 个基准数据集进行评价,我们发现在几乎所有评价指标中,7 种教育性方法比 RAkELd 更容易胜过它,但 Hamming Loss 除外。加权快贪和 walktrap 社区检测方法在加权标签共现图上比随机分区更有可能产生更好的 F1 分数。在非加权标签共现图上,Infomap 平均上比随机分割更好的子集准确性达到 90%,杰卡德相似度达到 89%。