Jan, 2018

Web2Text: 深度结构化模板去除

TL;DR介绍了一种利用神经网络和隐马尔可夫模型结合的方法,能够有效地提取网页正文,该方法在 CleanEval 数据库上达到了最先进的去噪声水平,并可提高 ClueWeb12 数据库上信息检索效果。