GLEN:适用于数千种类型的通用事件检测
本研究提出了一种包含 4480 份维基百科文件、118732 次事件提及实例和 168 种事件类型的 MAVEN 数据集,用于缓解数据不足和低覆盖率等问题,实证分析了通用领域事件检测中的进一步研究方向,并表明现有的事件检测方法不能像小规模数据集中表现出的那样在 MAVEN 上表现出色,说明其在现实世界中仍然是具有挑战性的任务,需要进一步的研究和努力。
Apr, 2020
通过研究零样本事件检测中的事件类型和定义,提出了使用多样化的事件类型和定义来提高模型遵循事件定义的方法,并构建了一个自动生成的多样化事件定义(DivED)数据集进行实证研究,结果显示,大量的事件类型和多样化的事件定义可以显著提升事件提取性能,同时在训练中引入事件本体信息和困难负样本可以进一步提高性能,基于这些发现,在 DivED 数据集上微调 LLaMA-2-7B 模型,在三个零样本事件检测基准上取得了超越 GPT-3.5 等最新大语言模型的性能。
Mar, 2024
LEVEN 数据集是一个包含 108 种事件类型的大规模中国法律事件检测数据集,它不仅涵盖与收费相关的事件,还涵盖重要但在现有 LED 数据集中被忽略的一般事件,该数据集可显着促进 LED 方法的培训和评估,并可作为提高下游应用程序性能的有用附加信息。
Mar, 2022
本文提出了一种基于语料库的开放领域事件类型归纳方法,该方法使用聚类 <谓词意义,对象头> 对每种事件类型进行表示,并利用选择显著谓词和对象头、利用动词意义词典消歧谓词语义、联合嵌入和聚类 <谓词意义,对象头> 对事件类型进行潜在球面空间的建模。多项实验表明,该方法能够有效地发现具有重要意义和高质量的事件类型。
Sep, 2021
本文提出了使用远程监督自动生成训练数据,利用结构化知识库和神经网络模型来提高事件抽取的效果的方法。通过实验结果表明,该方法可以大量生成高质量的训练数据,并且可以识别出多种类型的事件。
Dec, 2017
该研究介绍了一个新的数据集 GENEVA,涵盖了 115 个事件和 187 个参数角色,用于评估不同方面的模型泛化能力,并比较不同模型的相对普适性,最后提出了 SCAD 新模型,其性能优于以前的模型,并为这些测试套件提供强大的基准。
May, 2022
本文提出了一种 Semantic Pivoting Model for Effective Event Detection (SPEED)—— 显式地在训练期间整合先前信息,捕捉输入与事件之间语义上的相关性,在多个设置中取得最先进的性能,并优于基线方法而不使用任何外部资源。
Nov, 2022
本文提出了一种无监督事件抽取流程,使用先进的预训练语言模型并匹配语义,有效将事件映射到预定义的事件类型上,最终表现出色,成功地将 83% 的触发器和 54% 的参数映射到了正确类型。
Dec, 2020
本文提出了一种使用标签增强的异构图注意力网络 (L-HGAT) 来解决中文事件检测中的单词触发器不匹配问题的方法。在该方法中,每个句子被转换成一个图,其中包含了单词和字符之间的交互作用,并使用异构图注意力网络来传播关系信息和丰富信息交互。此外,每个标签都被转换为基于触发器原型的嵌入。在两个基准数据集上进行的实验表明,该模型比其他基线方法取得了显着的改进。
Dec, 2020