食谱领域文本材料提取
本研究使用自然语言处理技术,旨在解决获取发展中国家公司财务数据的问题。通过构建专门针对发展中国家金融文本数据的数据集,我们采用基于 Transformer 的 T5 模型进行文本到文本的处理,同时进行命名实体识别和关系提取,达到 92.44% 的准确率、68.25% 的精确度和 54.20% 的召回率。同时,我们还使用 SpaCy 进行序列处理,包括预训练和微调模型的命名实体识别以及使用 SpaCy 的依赖解析器输出和一些启发式方法来确定实体关系,最终实现了 84.72% 的准确率、6.06% 的精确度和 5.57% 的召回率。
Mar, 2024
本文介绍了一种自动构建领域特定知识图谱的方法,并通过将其注入到 Transformer 模型中以识别 aspect terms,提高了跨域情感分析中的性能表现。
Oct, 2022
我们提出了一种名为‘抽取式搜索’的搜索范式,其使用捕捉插槽等方法实现从大语料库中快速提取结构化信息,并通过神经检索和对齐提高召回率以改进结果。本文旨在简要介绍抽取式搜索并展示原型系统的潜力和好处。
Jun, 2021
该研究探讨了自然语言处理中模型提取的问题,结果表明,在具有查询访问权限的情况下,攻击者可以使用任意的打乱语序的字串以及特定启发式方法从模型中提取出相应模型的本地副本,通过使用预先训练好的 NLP 模型,使用转移学习的方法,他们在各种类型的 NLP 任务上展现出了攻击的有效性。而防范措施则徒劳无功。
Oct, 2019
本文提出了一种通过使用转移学习的方法,并结合深度神经网络和统计分类器的结合来进行信息提取,将该方法应用于日本政府工程竞标实际案例的文档处理中,证明了该模型能够提取具有详细信息精度的细粒度命名实体。
Mar, 2020
本论文提出了一种轻量级的特征无关的信息提取 (IE)范例,可以处理语言模式不规范、长尾概念漂移等问题,特别适用于人口贩卖等非法领域;经验证明,在低监督和高监督设置下,该范例可以比传统的基于特征的条件随机场提升 18%以上的 F - 度量,并且能够漂移概念稳定性高。
Mar, 2017
本文介绍了一个商业知识发现平台的术语提取子系统,采用全面且无监督注释器来跨越高度技术领域。该注释器通过将子词分词的新颖形态信号与使用通用领域预训练句子编码器计算的术语和主题以及内部术语相似度度量相结合,提取术语。通过在大型未标记语料库上运行 UA 生成的训练数据进行变压器模型的微调或预训练,使得此设置能够提高预测性能,同时减少 CPU 和 GPU 的推理延迟。该注释器为所有未标注语料库提供了非常有竞争力的基线。
Oct, 2022
该论文展示了最近机器学习的进展,结合已发表的标准化细粒度产品类别信息的多语言数据集,使得在具有挑战性的迁移学习设置中实现了可靠的产品属性提取,可以跨在线商店、语言或两者可靠地预测产品属性,并且可用于匹配在线零售商之间的产品分类法。
Feb, 2023
本研究介绍了一种基于 LSTM 域选择组件的人工智能助理系统中对于选择相关新训练数据的方法,实验结果表明,与随机选择和基于熵的方法相比,在固定标注预算的情况下提供了更高的准确性提升。
Aug, 2019