基于多特征融合的 Web 页面内容提取
提取网页主要内容,是许多应用的重要任务,现有方法依赖于大量的手工特征分类。我们提出了一种基于神经序列标注模型的方法,其不依赖于任何手工特征,而是将网页中出现的 HTML 标签和单词作为输入。我们创建了一个新的数据集,并基于我们的模型开发了浏览器扩展,以直接在浏览器中突出显示任意网页的内容。同时,我们的模型可以适应网页结构的变化,并优于现有最先进的模型。
Apr, 2020
介绍了一种利用神经网络和隐马尔可夫模型结合的方法,能够有效地提取网页正文,该方法在 CleanEval 数据库上达到了最先进的去噪声水平,并可提高 ClueWeb12 数据库上信息检索效果。
Jan, 2018
本文介绍了一种名为 FreeDOM 的新型两阶段神经方法,该方法通过结合文本和标记信息以及使用关系神经网络来捕捉更长的距离和语义关联性,可以从少量的种子站点的训练中泛化到未知的站点,而无需昂贵的手工制作特征或页面的可视化呈现。实验结果表明,FreeDOM 平均比现有技术高出近 3.7 个 F1 点。
Oct, 2020
网页实体抽取是一项基本的自然语言处理任务,在研究和应用中都非常重要。本文首先从电子商务领域采集了一个高质量的 extit {HEED} 数据集,其中包含了文本和相应的显式超文本特征以及手动标注的实体注释;其次,提出了一种基于混合专家的 extit {MoEEF} 实体抽取框架,通过有效地综合多个特征来提高模型性能,优于强基线模型及 GPT-3.5-turbo;最后,分析了 extit {HEED} 中的超文本特征以及 extit {MoEEF} 中的几个模型组件的有效性。
Mar, 2024
本研究提出了一种基于 PLM-GNN 的表示和分类方法,利用预训练语言模型和图神经网络对文本和 HTML DOM 树进行联合编码,有效应对网页数据增长的问题,具有较好的分类性能。
May, 2023
通过引入一种先进的检测模型,该研究解决了网络钓鱼的紧迫问题,并通过结合多层感知器(MLP)模型和两个预训练的自然语言处理(NLP)模型的嵌入来获得卓越的性能,特别是在分析页面标题和内容上。
Jan, 2024
该论文介绍了一种基于多模型非线性融合的新模型,通过使用基于词性、TF-IDF 和 word2vec-CNN 算法的 Jaccard 系数来分别衡量句子的相似度,输入加权向量到全连接神经网络,从而降低特征提取的细粒度,全局把握句子特征。实验结果表明,句子相似度计算方法的匹配率为 84%,模型的 F1 值为 75%。
Feb, 2022
本研究使用自然语言处理技术,旨在解决获取发展中国家公司财务数据的问题。通过构建专门针对发展中国家金融文本数据的数据集,我们采用基于 Transformer 的 T5 模型进行文本到文本的处理,同时进行命名实体识别和关系提取,达到 92.44% 的准确率、68.25% 的精确度和 54.20% 的召回率。同时,我们还使用 SpaCy 进行序列处理,包括预训练和微调模型的命名实体识别以及使用 SpaCy 的依赖解析器输出和一些启发式方法来确定实体关系,最终实现了 84.72% 的准确率、6.06% 的精确度和 5.57% 的召回率。
Mar, 2024
论文提出了一种基于神经网络和连续句子特征的数据驱动型抽取式摘要方法,采用层级文档编码器和基于注意力机制的提取器的通用框架,能够训练不同的摘要模型(提取句子或单词),在大规模语料库上进行实验结果表明,该方法在不需要语言注解的情况下取得了与现有技术相当的效果。
Mar, 2016