所有步骤一样重要吗?事件重要性检测基准测试
该研究提出了关于过程事件中两种类型的推理任务:目标 - 步骤关系和步骤 - 步骤时间关系。通过基于 how-to 文章的 wikiHow 数据集,建立人类验证的测试集和生成自动训练集。经实验证明,训练集有效地提高了在 SWAG,Snips 和故事 Cloze 测试的性能。
Sep, 2020
利用大型语言模型 (LLM) 的最新进展,我们提出了首个事件因果识别方法,从 GPT 中设计特定提示以提取事件因果关系。根据 GLUCOSE 数据集中的人工注释事件因果关系,我们的技术表现与监督模型相当,同时易于推广到不同类型和长度的故事。提取的因果关系在故事质量评估上带来了 5.7% 的提升和 8.7% 的故事视频文本对齐改进,我们的发现表明事件因果在计算机故事理解中有巨大的潜力。
Nov, 2023
本研究旨在研究事件显著性(重要性)并提出两个基于内容相似性和语篇关系的显著性检测模型,经测试,两种方法明显优于强频率基线,同时神经模型通过大幅提高基于特征的模型而进一步改善。
Sep, 2018
本文主要针对通过两种方法 —— 获取常见事件因果关系的知识库和理解特定故事或宏事件,通过知识获取方法研究以认识第一人称叙述和电影场景描述等叙事类型中的事件之间因果关系。实验结果表明我们的方法可以学习细粒度的因果关系。
Aug, 2017
提出了一个基于序列任务的具有挑战性的基准测试 STEPS,它包括两个子任务设置,聚焦于确定食谱中给定下一步的合理性和从多项选择题中选择合理步骤,通过实验结果说明了序列任务中的常识推理具有挑战性,并且提示方法在 STEPS 上仍然明显落后于基于调优的方法。
Jun, 2023
在事件检测领域,我们定义了一项新任务:少样本增量事件检测。我们使用 FewEvent 为基础重新创建并发布了一个基准数据集,提出了两种基准方法(IFSED-K 和 IFSED-KP),并表明我们的方法比基线更稳定且具有更高的 F1 分数。
Sep, 2022
本文提出了几种无监督方法来计算事件显著性,这些方法采用了巴特思对事件显著性的定义,并仅需要一个预先训练的语言模型。 在叙事文本上微调语言模型是提高提出方法表现的关键因素。
Nov, 2020
本研究提出了一个全面的事件语义处理框架,并引入了一个新的基准测试集 EVEVAL,以全面评估模型的事件语义处理能力,为自然语言处理领域的大语言模型应用提供了重要的研究方向。
May, 2023
本文提出了一种 Semantic Pivoting Model for Effective Event Detection (SPEED)—— 显式地在训练期间整合先前信息,捕捉输入与事件之间语义上的相关性,在多个设置中取得最先进的性能,并优于基线方法而不使用任何外部资源。
Nov, 2022
本文提出了一种从自然语言文本中提取事件链的方法,该方法可以过滤非显著事件和支持性句子,并在两个任务中证明了其有效性:叙述预测和基于事件的时间问答。
Sep, 2021