食谱领域文本材料提取

Apr, 2022

Ingredient Extraction from Text in the Recipe Domain

Arkin Dharawat, Chris Doan

TL;DR本研究探讨了从虚拟助手所接收到的文本用户语句中提取食谱相关信息的方法，通过 fine-tuned 的 BERT 模型达到了 95.01% 的 F1 分数，并在 Github 上共享了全部代码。

Abstract

In recent years, there has been an increase in the number of devices with virtual assistants (e.g: Siri, Google Home, Alexa) in our living rooms and kitchens. As a result of this, these devices receive several queries about recipes. All these queries will contain terms relating to a "<

virtual assistants recipe-domain extracting ingredients bert

发现论文，激发创造

信息提取：在发展中国家超本地金融数据领域的应用

本研究使用自然语言处理技术，旨在解决获取发展中国家公司财务数据的问题。通过构建专门针对发展中国家金融文本数据的数据集，我们采用基于 Transformer 的 T5 模型进行文本到文本的处理，同时进行命名实体识别和关系提取，达到 92.44% 的准确率、68.25% 的精确度和 54.20% 的召回率。同时，我们还使用 SpaCy 进行序列处理，包括预训练和微调模型的命名实体识别以及使用 SpaCy 的依赖解析器输出和一些启发式方法来确定实体关系，最终实现了 84.72% 的准确率、6.06% 的精确度和 5.57% 的召回率。

Mar, 2024

使用知识图谱增强的 Transformer 进行跨领域方面提取

本文介绍了一种自动构建领域特定知识图谱的方法，并通过将其注入到 Transformer 模型中以识别 aspect terms，提高了跨域情感分析中的性能表现。

Oct, 2022

神经抽取式搜索

我们提出了一种名为‘抽取式搜索’的搜索范式，其使用捕捉插槽等方法实现从大语料库中快速提取结构化信息，并通过神经检索和对齐提高召回率以改进结果。本文旨在简要介绍抽取式搜索并展示原型系统的潜力和好处。

Jun, 2021

Sesame Street 上的盗贼！BERT-based API 的模型提取

该研究探讨了自然语言处理中模型提取的问题，结果表明，在具有查询访问权限的情况下，攻击者可以使用任意的打乱语序的字串以及特定启发式方法从模型中提取出相应模型的本地副本，通过使用预先训练好的 NLP 模型，使用转移学习的方法，他们在各种类型的 NLP 任务上展现出了攻击的有效性。而防范措施则徒劳无功。

Oct, 2019

有限数据下的信息提取迁移学习

本文提出了一种通过使用转移学习的方法，并结合深度神经网络和统计分类器的结合来进行信息提取，将该方法应用于日本政府工程竞标实际案例的文档处理中，证明了该模型能够提取具有详细信息精度的细粒度命名实体。

Mar, 2020

非法领域中的信息提取

本论文提出了一种轻量级的特征无关的信息提取（IE）范例，可以处理语言模式不规范、长尾概念漂移等问题，特别适用于人口贩卖等非法领域；经验证明，在低监督和高监督设置下，该范例可以比传统的基于特征的条件随机场提升 18％以上的 F - 度量，并且能够漂移概念稳定性高。

Mar, 2017

高度技术领域的非监督术语提取

本文介绍了一个商业知识发现平台的术语提取子系统，采用全面且无监督注释器来跨越高度技术领域。该注释器通过将子词分词的新颖形态信号与使用通用领域预训练句子编码器计算的术语和主题以及内部术语相似度度量相结合，提取术语。通过在大型未标记语料库上运行 UA 生成的训练数据进行变压器模型的微调或预训练，使得此设置能够提高预测性能，同时减少 CPU 和 GPU 的推理延迟。该注释器为所有未标注语料库提供了非常有竞争力的基线。

Oct, 2022

自动从非结构化多语言 Web 数据中提取精细化标准化产品信息

该论文展示了最近机器学习的进展，结合已发表的标准化细粒度产品类别信息的多语言数据集，使得在具有挑战性的迁移学习设置中实现了可靠的产品属性提取，可以跨在线商店、语言或两者可靠地预测产品属性，并且可用于匹配在线零售商之间的产品分类法。

Feb, 2023

商用智能语音助理领域分类的主动学习

本研究介绍了一种基于 LSTM 域选择组件的人工智能助理系统中对于选择相关新训练数据的方法，实验结果表明，与随机选择和基于熵的方法相比，在固定标注预算的情况下提供了更高的准确性提升。

Aug, 2019

关系抽取中充分利用领域专家的时间

文章介绍了一种使用远程监督与主动学习相结合的方法进行关系提取，实现在减少专家标注数据的人力成本的同时，使神经网络在复杂数据集上得到更好的表现。

Jul, 2018