Mar, 2022

通过文本块的语义分类检测套用文本

TL;DR介绍了一种名为 SemText 的分层神经网络模型,它使用一种新颖的 HTML 标签、类名和文本块的语义表示来检测 HTML 模板,在三个已发表的新闻网页数据集上训练并微调,在 CleanEval 和 GoogleTrends-2017 中使用少量开发数据,结果显示模型在这些数据集上达到了最先进的准确率,同时还展示了 SemText 将 HTML 模板检测领域扩展至基于社区问答网页。