用于调查性新闻的多语言信息提取流水线
该研究创建了第一个意大利神经心理学命名实体识别数据集,PsyNIT,并使用它开发了用于此任务的大型语言模型。通过多中心模型实验,建立了方法论指导,未来还可为意大利医院提供重要的研究机会。
Jun, 2023
本研究使用自然语言处理技术,旨在解决获取发展中国家公司财务数据的问题。通过构建专门针对发展中国家金融文本数据的数据集,我们采用基于 Transformer 的 T5 模型进行文本到文本的处理,同时进行命名实体识别和关系提取,达到 92.44% 的准确率、68.25% 的精确度和 54.20% 的召回率。同时,我们还使用 SpaCy 进行序列处理,包括预训练和微调模型的命名实体识别以及使用 SpaCy 的依赖解析器输出和一些启发式方法来确定实体关系,最终实现了 84.72% 的准确率、6.06% 的精确度和 5.57% 的召回率。
Mar, 2024
本研究提出了一种基于终身学习和多语言知识转移的新型假新闻检测方法,该方法利用传统特征提取器和深度自然语言处理模型结合多层感知器分类器,可以在英语和西班牙语数据集上提高假新闻分类任务的性能。
May, 2022
使用自然语言处理技术和 Named Entity Recognition 模型,我们建立了一个系统,对社会科学研究文献中的数据引用进行了探测,构建了一个社会科学文献和相关数据集的数据集,这将有助于未来的数据引用、数据引证网络和数据再利用领域的研究。
May, 2022
开发了一种基于抽象的总结框架,适用于多个异构文档,该框架独立于标记数据。 与现有的多文件总结方法不同,我们的框架处理讲述不同故事的文档,而不是同一主题的文档。 最后,我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体,其中每个文档组都包含大量且多样化的文档,以评估我们的模型与其他基线系统的性能。 我们的实验表明,我们的框架在这种更通用的情况下胜过了现有的最先进方法。
May, 2022
本研究介绍了一个从法律案例中检索、处理和提取目标信息的端到端方法,并进行了在加拿大难民法律领域的案例研究。通过使用最先进的神经命名实体识别技术,从不同的神经网络模型中选择最佳方法来提取有用的信息。模型可以在 5 个目标类别上实现高于 90% 的 F1 分数,并在其他 4 个类别上实现超过 80% 的分数。
May, 2023
这篇研究探讨如何从历史文本中提取事件,并介绍了一个在英语、法语和荷兰语中报导解放奴隶的早期殖民时期报纸广告所组成的新的多语言数据集,作者发现通过将问题描述为提取式 QA 任务,并利用现有的现代语言数据集和模型,即使数据有限,也能实现令人惊讶的好结果;对于历史语言的跨语言低资源学习也具有高度的挑战性,实际上,历史数据集的机器翻译到目标语言经常是最好的解决方案。
May, 2023
从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里,科学信息提取(SciIE)的研究见证了数个新系统和基准的发布。然而,现有以论文为中心的数据集主要只关注论文的特定部分(例如摘要),且为单模态(即只有文本或表格),这是因为处理复杂性和高昂的注释费用所导致。此外,核心信息可能存在于文本或表格中,或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取,同时减轻标注成本,我们提出了一个半监督的流程,用于迭代地对文本中的实体、以及表格中的实体和关系进行注释。基于此流程,我们为科学界提供了一些新资源,包括一个高质量的基准、一个大型语料库和一个半监督的注释流程。我们进一步报告了最先进的信息提取模型在提出的基准数据集上的性能作为一个基准。最后,我们探索了像 ChatGPT 这样的大型语言模型在当前任务中的潜在能力。我们的新数据集、结果和分析验证了半监督流程的有效性和效率,同时我们也讨论了其剩余的局限性。
Nov, 2023
该研究介绍了一种用于法律文件信息抽取的端到端系统,实验结果表明,该系统可以在少于 50 个训练样本的情况下比基于规则的基线方法得到更好的结果,并且使用 200 个样本可以得到更高的得分,并且使用这个系统从醉酒驾驶和欺诈两个案例类别的 3.5 万个案例中抽取出的结构化信息真实反映了韩国法律系统的宏观特征。
Nov, 2022