Jan, 2022

Homepage2Vec: 语言无关的网站嵌入和分类

TL;DR该研究提供了一个包含 92 种语言超过 2 百万个有类别标签网站的数据集,并且介绍了 Homepage2vec 模型,该模型对网页进行分类和嵌入,无论该网页所属的语言如何。该模型性能稳定、准确率高且具有计算效率高的优势,并提供了网络数据库和预训练模型。