基于多特征融合的 Web 页面内容提取

Mar, 2022

基于多特征融合的 Web 页面内容提取

Web Page Content Extraction Based on Multi-feature Fusion

Bowen Yu, Junping Du, Yingxia Shao

TL;DR本研究提出了一种基于多特征融合的网页文本提取算法，建立了小型神经网络，采用多种统计信息和提取策略，适应了更多页面类型，避免了手动确定阈值的问题。

Abstract

With the rapid development of Internet technology, people have more and more access to a variety of web page resources. At the same time, the current rapid development of deep learning technology is often insepar

web page deep learning text extraction multi-feature fusion threshold

发现论文，激发创造

神经序列标注模型用于去除样板文件

提取网页主要内容，是许多应用的重要任务，现有方法依赖于大量的手工特征分类。我们提出了一种基于神经序列标注模型的方法，其不依赖于任何手工特征，而是将网页中出现的 HTML 标签和单词作为输入。我们创建了一个新的数据集，并基于我们的模型开发了浏览器扩展，以直接在浏览器中突出显示任意网页的内容。同时，我们的模型可以适应网页结构的变化，并优于现有最先进的模型。

Apr, 2020

Web2Text: 深度结构化模板去除

介绍了一种利用神经网络和隐马尔可夫模型结合的方法，能够有效地提取网页正文，该方法在 CleanEval 数据库上达到了最先进的去噪声水平，并可提高 ClueWeb12 数据库上信息检索效果。

Jan, 2018

FreeDOM: 一种可传输的神经网络架构，用于从 Web 文档中提取结构化信息

本文介绍了一种名为 FreeDOM 的新型两阶段神经方法，该方法通过结合文本和标记信息以及使用关系神经网络来捕捉更长的距离和语义关联性，可以从少量的种子站点的训练中泛化到未知的站点，而无需昂贵的手工制作特征或页面的可视化呈现。实验结果表明，FreeDOM 平均比现有技术高出近 3.7 个 F1 点。

Oct, 2020

网页中的超文本实体抽取

网页实体抽取是一项基本的自然语言处理任务，在研究和应用中都非常重要。本文首先从电子商务领域采集了一个高质量的 extit {HEED} 数据集，其中包含了文本和相应的显式超文本特征以及手动标注的实体注释；其次，提出了一种基于混合专家的 extit {MoEEF} 实体抽取框架，通过有效地综合多个特征来提高模型性能，优于强基线模型及 GPT-3.5-turbo；最后，分析了 extit {HEED} 中的超文本特征以及 extit {MoEEF} 中的几个模型组件的有效性。

Mar, 2024

基于联合预训练语言模型和图神经网络的 Web 页面分类方法

本研究提出了一种基于 PLM-GNN 的表示和分类方法，利用预训练语言模型和图神经网络对文本和 HTML DOM 树进行联合编码，有效应对网页数据增长的问题，具有较好的分类性能。

May, 2023

通过 HTML 内容的多模型分析来检测钓鱼网站

通过引入一种先进的检测模型，该研究解决了网络钓鱼的紧迫问题，并通过结合多层感知器（MLP）模型和两个预训练的自然语言处理（NLP）模型的嵌入来获得卓越的性能，特别是在分析页面标题和内容上。

Jan, 2024

基于多模型精细非线性融合的语义相似度计算模型

该论文介绍了一种基于多模型非线性融合的新模型，通过使用基于词性、TF-IDF 和 word2vec-CNN 算法的 Jaccard 系数来分别衡量句子的相似度，输入加权向量到全连接神经网络，从而降低特征提取的细粒度，全局把握句子特征。实验结果表明，句子相似度计算方法的匹配率为 84%，模型的 F1 值为 75%。

Feb, 2022

信息提取：在发展中国家超本地金融数据领域的应用

本研究使用自然语言处理技术，旨在解决获取发展中国家公司财务数据的问题。通过构建专门针对发展中国家金融文本数据的数据集，我们采用基于 Transformer 的 T5 模型进行文本到文本的处理，同时进行命名实体识别和关系提取，达到 92.44% 的准确率、68.25% 的精确度和 54.20% 的召回率。同时，我们还使用 SpaCy 进行序列处理，包括预训练和微调模型的命名实体识别以及使用 SpaCy 的依赖解析器输出和一些启发式方法来确定实体关系，最终实现了 84.72% 的准确率、6.06% 的精确度和 5.57% 的召回率。

Mar, 2024

多源、多模态、多语种融合：信息提取和摘要的收敛维度

利用多个来源的强项，提供对复杂话题更全面和详细的理解，从而应对摘要研究面临的挑战。

Jun, 2024

基于句子和单词提取的神经摘要

论文提出了一种基于神经网络和连续句子特征的数据驱动型抽取式摘要方法，采用层级文档编码器和基于注意力机制的提取器的通用框架，能够训练不同的摘要模型（提取句子或单词），在大规模语料库上进行实验结果表明，该方法在不需要语言注解的情况下取得了与现有技术相当的效果。

Mar, 2016