基于部分和整体提取的文本百分比定量事实深度理解

EMNLPOct, 2021

基于部分和整体提取的文本百分比定量事实深度理解

Part & Whole Extraction: Towards A Deep Understanding of Quantitative Facts for Percentages in Text

Lei Fang, Jian-Guang Lou

TL;DR本文研究了提取文本中百分比的定量事实的问题，并将其作为序列标注问题，介绍了跳过机制来解决部分 / 整体和其相应百分比之间的巨大间隔。实验结果表明，学习序列标注中的跳过机制很有希望，该方法可以应用于自动信息图表生成。

Abstract

We study the problem of quantitative facts extraction for text with percentages. For example, given the sentence "30 percent of Americans like watching football, while 20% prefer to watch NBA.", our goal is to obtain a deep understanding of the →

quantitative facts extraction percentage sequence tagging skip mechanism named entity recognition

发现论文，激发创造

从文本中提取受害者人数

人道主义领域的决策者需要实时和准确的信息，在危机事件中了解受伤的平民数量对于适当分配援助至关重要。将受害者计数提取作为回答问题（QA）任务，并探讨提取可靠性和鲁棒性，我们比较正则表达式、依赖解析、基于语义角色标注的方法和先进的文本到文本模型。除了模型准确性外，我们还分析了提取可靠性和鲁棒性在这种敏感任务中的重要性。我们的研究是将数值计算为重点的大型语言模型在有积极影响的实际用例中的首次应用之一。

Feb, 2023

文本类比解析：类比事实中共享和比较的内容

本文介绍了文本类比分析的任务，提出了一种以框架为风格的含义表示方法，它可以明确指定其组成要素之间共享的内容和比较的对象，从而支持从数量型文本生成自动化图表和其他依赖于话语理解的新应用。同时介绍了一个新的 TAP 数据集，包括基线和成功使用 ILP 实施结构约束的模型。

Sep, 2018

信息提取：在发展中国家超本地金融数据领域的应用

本研究使用自然语言处理技术，旨在解决获取发展中国家公司财务数据的问题。通过构建专门针对发展中国家金融文本数据的数据集，我们采用基于 Transformer 的 T5 模型进行文本到文本的处理，同时进行命名实体识别和关系提取，达到 92.44% 的准确率、68.25% 的精确度和 54.20% 的召回率。同时，我们还使用 SpaCy 进行序列处理，包括预训练和微调模型的命名实体识别以及使用 SpaCy 的依赖解析器输出和一些启发式方法来确定实体关系，最终实现了 84.72% 的准确率、6.06% 的精确度和 5.57% 的召回率。

Mar, 2024

从文本中提取数学概念

本文探讨了使用四种不同的术语提取器从数学范畴论的英文文本中提取数学实体的系统，作为构建数学知识图的第一步。研究还提供了两个开放数据集，以支持在数学领域进行研究。

Aug, 2022

我们应该在哪个层面上提取？关于可提取性文档摘要的实证分析

本研究发现在提取文档内容时，提取全句存在不必要和冗余的问题。我们提出了一种基于成分句法分析树的子句单元提取方法，并采用神经萃取模型进行实验分析，发现提取子句单元在人工和自动化评估中表现优异，为未来研究提供了启示。

Apr, 2020

多元损失函数的文本量化器优化

本研究旨在探讨采用结构化预测的有监督学习模型解决量化问题，通过在 5500 个二进制高维数据集上实验，证明该方法比现有的量化方法更准确、更稳定、更高效。

Feb, 2015

通过将数字视为实体来提高下游任务性能

本研究利用最先进的自然语言处理模型及其分类能力，将数字分类为实体，从而使 NLP 模型在多项任务中具备更好的表现，超越了 BERT 和 RoBERTa 的基线分类结果。

May, 2022

基于图的语义提取文本分析

本文介绍了针对文本数据的关键词提取和文本摘要的处理方法，介绍了一种基于 TextRank 算法的无监督学习方法，在其基础上提高了算法的效率，并针对其忽略了不同部分的语义相似性进行了改进。此外，还开发了一种基于该框架的主题聚类算法，可单独使用或作为生成摘要的一部分来解决文本覆盖问题。

Dec, 2022

文本分段的文档摘要

本研究旨在利用文献的内在结构，通过建立两个文本分割模型并寻找最优策略，使它们的输出预测投入到一种提取式摘要模型中，实验结果表明，提取式摘要从使用高准确度的分割方法中受益匪浅，特别地，在文档中最相关信息不在开头的情况下，分割有助于减少引导偏差问题。

Jan, 2023

文档级主张提取与脱离背景化以进行事实核查

我们提出了一种用于事实检查的文档级索取索赔的方法，旨在从文档中提取值得检查的要求，并将它们解除背景以便在任何环境下理解。使用自动评估指标和事实检查专业人员的评估结果表明，我们的方法比以前的工作更准确地从文档中提取出有价值的索赔，并改善了证据的检索。

Jun, 2024