基于部分和整体提取的文本百分比定量事实深度理解
人道主义领域的决策者需要实时和准确的信息,在危机事件中了解受伤的平民数量对于适当分配援助至关重要。将受害者计数提取作为回答问题(QA)任务,并探讨提取可靠性和鲁棒性,我们比较正则表达式、依赖解析、基于语义角色标注的方法和先进的文本到文本模型。除了模型准确性外,我们还分析了提取可靠性和鲁棒性在这种敏感任务中的重要性。我们的研究是将数值计算为重点的大型语言模型在有积极影响的实际用例中的首次应用之一。
Feb, 2023
本文介绍了文本类比分析的任务,提出了一种以框架为风格的含义表示方法,它可以明确指定其组成要素之间共享的内容和比较的对象,从而支持从数量型文本生成自动化图表和其他依赖于话语理解的新应用。同时介绍了一个新的 TAP 数据集,包括基线和成功使用 ILP 实施结构约束的模型。
Sep, 2018
本研究使用自然语言处理技术,旨在解决获取发展中国家公司财务数据的问题。通过构建专门针对发展中国家金融文本数据的数据集,我们采用基于 Transformer 的 T5 模型进行文本到文本的处理,同时进行命名实体识别和关系提取,达到 92.44% 的准确率、68.25% 的精确度和 54.20% 的召回率。同时,我们还使用 SpaCy 进行序列处理,包括预训练和微调模型的命名实体识别以及使用 SpaCy 的依赖解析器输出和一些启发式方法来确定实体关系,最终实现了 84.72% 的准确率、6.06% 的精确度和 5.57% 的召回率。
Mar, 2024
本研究发现在提取文档内容时,提取全句存在不必要和冗余的问题。我们提出了一种基于成分句法分析树的子句单元提取方法,并采用神经萃取模型进行实验分析,发现提取子句单元在人工和自动化评估中表现优异,为未来研究提供了启示。
Apr, 2020
本研究利用最先进的自然语言处理模型及其分类能力,将数字分类为实体,从而使 NLP 模型在多项任务中具备更好的表现,超越了 BERT 和 RoBERTa 的基线分类结果。
May, 2022
本文介绍了针对文本数据的关键词提取和文本摘要的处理方法,介绍了一种基于 TextRank 算法的无监督学习方法,在其基础上提高了算法的效率,并针对其忽略了不同部分的语义相似性进行了改进。此外,还开发了一种基于该框架的主题聚类算法,可单独使用或作为生成摘要的一部分来解决文本覆盖问题。
Dec, 2022
本研究旨在利用文献的内在结构,通过建立两个文本分割模型并寻找最优策略,使它们的输出预测投入到一种提取式摘要模型中,实验结果表明,提取式摘要从使用高准确度的分割方法中受益匪浅,特别地,在文档中最相关信息不在开头的情况下,分割有助于减少引导偏差问题。
Jan, 2023
我们提出了一种用于事实检查的文档级索取索赔的方法,旨在从文档中提取值得检查的要求,并将它们解除背景以便在任何环境下理解。使用自动评估指标和事实检查专业人员的评估结果表明,我们的方法比以前的工作更准确地从文档中提取出有价值的索赔,并改善了证据的检索。
Jun, 2024