Mar, 2024

网页中的超文本实体抽取

TL;DR网页实体抽取是一项基本的自然语言处理任务,在研究和应用中都非常重要。本文首先从电子商务领域采集了一个高质量的 extit{HEED}数据集,其中包含了文本和相应的显式超文本特征以及手动标注的实体注释;其次,提出了一种基于混合专家的 extit{MoEEF}实体抽取框架,通过有效地综合多个特征来提高模型性能,优于强基线模型及GPT-3.5-turbo;最后,分析了 extit{HEED}中的超文本特征以及 extit{MoEEF}中的几个模型组件的有效性。