用于调查性新闻的多语言信息提取流水线

EMNLPSep, 2018

用于调查性新闻的多语言信息提取流水线

A Multilingual Information Extraction Pipeline for Investigative Journalism

Gregor Wiedemann, Seid Muhie Yimam, Chris Biemann

TL;DR本文介绍了一种信息提取工具，可以自动处理大规模无结构文本数据，支持多语言文档的全文、元数据和实体的提取，重点支持三个主要因素以服务于跨国界新闻调查，最终实现了数据集的快速探索以及潜在故事的挖掘。

Abstract

We introduce an advanced information extraction pipeline to automatically process very large collections of unstructured textual data for the purpose of investigative journalism. The pipeline serves as a new inpu

information extraction investigative journalism entity extraction multi-lingual document sets file format extraction

发现论文，激发创造

大语言模型推进意大利生物医学信息提取：方法论洞见与多中心实际应用

该研究创建了第一个意大利神经心理学命名实体识别数据集，PsyNIT，并使用它开发了用于此任务的大型语言模型。通过多中心模型实验，建立了方法论指导，未来还可为意大利医院提供重要的研究机会。

Jun, 2023

细粒度的冠状病毒新闻命名实体

本研究提出了一个数据标注流程，从包括普通和领域特定实体的冠状病毒新闻文章中生成训练数据，并在领域专家手动标注的测试句子上评估训练模型的性能。

Apr, 2024

信息提取：在发展中国家超本地金融数据领域的应用

本研究使用自然语言处理技术，旨在解决获取发展中国家公司财务数据的问题。通过构建专门针对发展中国家金融文本数据的数据集，我们采用基于 Transformer 的 T5 模型进行文本到文本的处理，同时进行命名实体识别和关系提取，达到 92.44% 的准确率、68.25% 的精确度和 54.20% 的召回率。同时，我们还使用 SpaCy 进行序列处理，包括预训练和微调模型的命名实体识别以及使用 SpaCy 的依赖解析器输出和一些启发式方法来确定实体关系，最终实现了 84.72% 的准确率、6.06% 的精确度和 5.57% 的召回率。

Mar, 2024

多语言数据分类的终身学习自然语言处理方法

本研究提出了一种基于终身学习和多语言知识转移的新型假新闻检测方法，该方法利用传统特征提取器和深度自然语言处理模型结合多层感知器分类器，可以在英语和西班牙语数据集上提高假新闻分类任务的性能。

May, 2022

检测学术文献中非正式数据引用的自然语言处理流程

使用自然语言处理技术和 Named Entity Recognition 模型，我们建立了一个系统，对社会科学研究文献中的数据引用进行了探测，构建了一个社会科学文献和相关数据集的数据集，这将有助于未来的数据引用、数据引证网络和数据再利用领域的研究。

May, 2022

利用信息提取和压缩进行大规模多文档摘要

开发了一种基于抽象的总结框架，适用于多个异构文档，该框架独立于标记数据。与现有的多文件总结方法不同，我们的框架处理讲述不同故事的文档，而不是同一主题的文档。最后，我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体，其中每个文档组都包含大量且多样化的文档，以评估我们的模型与其他基线系统的性能。我们的实验表明，我们的框架在这种更通用的情况下胜过了现有的最先进方法。

May, 2022

自动难民案件分析：支持法律从业者的自然语言处理管道

本研究介绍了一个从法律案例中检索、处理和提取目标信息的端到端方法，并进行了在加拿大难民法律领域的案例研究。通过使用最先进的神经命名实体识别技术，从不同的神经网络模型中选择最佳方法来提取有用的信息。模型可以在 5 个目标类别上实现高于 90% 的 F1 分数，并在其他 4 个类别上实现超过 80% 的分数。

May, 2023

历史报纸广告的多语言事件抽取

这篇研究探讨如何从历史文本中提取事件，并介绍了一个在英语、法语和荷兰语中报导解放奴隶的早期殖民时期报纸广告所组成的新的多语言数据集，作者发现通过将问题描述为提取式 QA 任务，并利用现有的现代语言数据集和模型，即使数据有限，也能实现令人惊讶的好结果；对于历史语言的跨语言低资源学习也具有高度的挑战性，实际上，历史数据集的机器翻译到目标语言经常是最好的解决方案。

May, 2023

解锁科学：跨模态科学信息提取的新型数据集和基准

从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里，科学信息提取（SciIE）的研究见证了数个新系统和基准的发布。然而，现有以论文为中心的数据集主要只关注论文的特定部分（例如摘要），且为单模态（即只有文本或表格），这是因为处理复杂性和高昂的注释费用所导致。此外，核心信息可能存在于文本或表格中，或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取，同时减轻标注成本，我们提出了一个半监督的流程，用于迭代地对文本中的实体、以及表格中的实体和关系进行注释。基于此流程，我们为科学界提供了一些新资源，包括一个高质量的基准、一个大型语料库和一个半监督的注释流程。我们进一步报告了最先进的信息提取模型在提出的基准数据集上的性能作为一个基准。最后，我们探索了像 ChatGPT 这样的大型语言模型在当前任务中的潜在能力。我们的新数据集、结果和分析验证了半监督流程的有效性和效率，同时我们也讨论了其剩余的局限性。

Nov, 2023

面向统计法律分析的数据高效端到端信息提取

该研究介绍了一种用于法律文件信息抽取的端到端系统，实验结果表明，该系统可以在少于 50 个训练样本的情况下比基于规则的基线方法得到更好的结果，并且使用 200 个样本可以得到更高的得分，并且使用这个系统从醉酒驾驶和欺诈两个案例类别的 3.5 万个案例中抽取出的结构化信息真实反映了韩国法律系统的宏观特征。

Nov, 2022