CompRes: 新闻叙述结构数据集

ACLJul, 2020

CompRes: A Dataset for Narrative Structure in News

Effi Levi, Guy Mor, Shaul Shenhav, Tamir Sheafer

TL;DR本文介绍了利用 CompRes 数据集进行新闻媒体叙述结构自动检测的任务，并从叙述理论中采用新的故事要素，通过有监督模型训练，实现了 $ F_1 $ 得分高达 0.7。

Abstract

This paper addresses the task of automatically detecting narrative structures in raw texts. Previous works have utilized the oral narrative theory by Labov and Waletzky to identify various narrative elements in personal stories texts. Instead, we direct our focus to news articles, moti

narrative structure news articles compres dataset labov and waletzky supervised models

发现论文，激发创造

在信息文本中检测叙事元素

本研究介绍了一种名为 NEAT 的新型 NLP 任务，针对新闻等信息文本，基于 Labov 和 Waletzky 的叙事理论设计了一种新的多标签叙事注释方案，标注了从多种类别域收集的 46 篇新闻文章中的 2,209 句子，并训练了多个监督模型进行不同设置的分类，成功地识别了不同的叙事元素，并达到了高达 0.77 的 F1 分数，表明该研究具有很好的全面性及对域类别的鲁棒性。

Oct, 2022

学术复杂性转化为公众叙述：面向科学新闻报道生成的数据集

科学新闻报道的自动生成提高了学术洞察的可访问性，本文通过对一组学术出版物与相应科学新闻报道的平行集合进行广泛分析，突出了两者在易读性和简洁性上的差异，并使用先进的文本生成模型对数据集进行了基准测试，为进一步探索科学新闻报道的自动生成奠定了基础。

Mar, 2024

冲突、反派、结局：构建叙事媒体框架模型

本研究旨在重新评估传播科学中的框架概念，将其与故事中重要实体的叙事框架相结合，提出自动检测多标签测定的框架，并在新闻机构的气候变化框架案例研究中应用传统的监督和半监督学习技术，最终在透明的预测中呈现了一种新的基于检索的既有效又透明的方法。

Jun, 2023

M-SENSE：利用主角心理再现建模短篇个人叙述中的叙事结构

本文提出了一种计算模型，通过分析角色猜测的心理状态和句法和语义层面的语言信息，自动检测叙述结构的主要元素。通过使用预先训练的社交常识知识模型获取主角的心理状态信息，并使用多功能融合方法将其与语境语义嵌入相结合，我们建立了一个包含手动注释的 STORIES 数据集的计算模型来实现这一任务，并在评估中发现我们的模型能够实现极显著的改进来识别高潮和结局。

Feb, 2023

基于事件的新闻叙事提取调查

本综述文章聚焦于从事件中心的角度提取新闻叙事，包括合成、组织、评估方法等方面，总结了 900 多篇相关文章中的 54 篇研究，分析了近年来的趋势和未来的挑战和潜在研究方向。

Feb, 2023

美国故事：历史美国报纸的大规模结构化文本数据集

用深度学习方法从报纸图像中提取全文文章，以构建高质量数据集供大型语言模型预训练，达到对历史英语和历史世界知识有更好理解的目的。

Aug, 2023

航向新闻叙事：媒体偏见分析数据集

媒体偏见分析数据集是一个全面的数据集，涵盖了各种偏见，对检测和分析媒体偏见具有重要价值，可为媒体研究和人工智能领域提供独特的资源。

Nov, 2023

GoodNewsEveryone：一份新闻标题语料库，涵盖情感、语义角色和读者感知的注释

通过众包的方式，我们发布了一个数据集，包括了 5000 个英文新闻标题的情感、情感体验者和文本线索、相关情感原因和目标，以及读者对标题情感的感知；在此基础上，我们提出了一个多阶段的注释程序，开发了语义角色结构自动预测任务的基线，并讨论了结果，此数据集支持进一步情感分类、情感强度预测、情感原因检验和定性研究。

Dec, 2019

利用潜在叙事结构进行剧本概述

本研究针对长篇叙述性文章提出了一种基于叙述结构的提取式摘要模型。通过将叙述结构转化为关键节点，导入非监督和监督提取式摘要模型，实验结果表明，潜在节点与 CSI 剧集的重要方面相关，并通过提高提取式算法的完整性和多样性改善了摘要性能。

Apr, 2020

来自微型文本的非参数贝叶斯故事线检测

我们用基于距离依赖的中文饭店过程（dd-CRP）提出了故事情节检测的一个新的在线非参数贝叶斯框架。通过使用固定滞后吉布斯采样过程来保证高效的线性推断，衡量方法在 TREC Twitter 时间线生成（TTG）上表现出色，与 2014 年 TTG 任务的最佳结果相当，尽管采用的是一个较弱的基线检索模型。

Jan, 2016