Jan, 2024

远程监督的词形句法模型用于关系抽取

TL;DR信息抽取任务涉及将非结构化文本内容自动转换为结构化数据。本文提出了一种从文本中提取和分类无限制关系集的方法,它基于远程监督方法获取的形态 - 句法抽取模式,并创建句法和语义索引来提取和分类候选图。我们在构建在 Wikidata 和 Wikipedia 上的六个数据集上评估了我们的方法。评估结果显示,我们的方法可以实现高达 0.85 的精确度得分,但召回率和 F1 得分较低。我们的方法可以快速构建基于规则的信息抽取系统,并构建注释数据集以训练基于机器学习和深度学习的分类器。