SumREN: 新闻事件报道语的摘要
通过引入背景新闻摘要机制,结合时间轴更新,我们构建了一个数据集,并通过人工标注人员为每个新闻事件的每个时间步骤编写了背景摘要。我们提出了一个问题导向的变体来生成背景摘要,并使用基于问答的评估指标 Background Utility Score(BUS)评估了摘要质量。实验结果表明,在 Fine-tuned 系统(如 Flan-T5)和零 - shot 性能强大的 GPT-3.5 的指导下,背景摘要表现出很好的效果。
Oct, 2023
在多篇文档新闻摘要研究中,以往研究通常集中于整合各个来源都同意的信息。然而,据我们所知,以往尚未研究过涉及同一事件的多篇文章中分散的多样信息的摘要。后者为摘要模型提出了一组不同的挑战。在本文中,我们提出了一个新任务,即摘要涉及同一事件的多篇新闻文章中的多样信息。为了完成这项任务,我们确定了一个用于识别多样信息的数据收集模式,并创建了一个名为 DiverseSumm 的数据集。该数据集包含 245 个新闻故事,每个故事包括 10 篇新闻文章,并配有人工验证的参考摘要。此外,我们进行了全面的分析,以确定基于大型语言模型(LLM)的度量标准在评估摘要的全面性和忠实度时存在的位置和冗长偏差,以及它们与人工评估的相关性。我们应用我们的发现来研究 LLMs 如何通过分析 LLMs 能够识别哪种类型的多样信息来摘要多篇新闻文章。我们的分析表明,尽管 LLMs 在单篇文档摘要方面具有非凡的能力,但对于他们来说,所提出的任务仍然是一个复杂的挑战,主要是由于他们的覆盖范围有限,GPT-4 只能够平均覆盖不到 40% 的多样信息。
Sep, 2023
SciBERTSUM 是一种针对科学论文的摘要框架,通过增加节嵌入层和应用稀疏注意力机制,在长文本(超过 500 句)中表现出更好的 ROUGE 分数。
Jan, 2022
本研究使用 BERTSum 模型对按主题分类的教学视频进行抽象摘要概括,通过多个英文语境下的数据集预训练模型,使用 ROUGE 和 Content-F1 评分进行结果评估,同时进行人工盲评,结果显示本方法在 WikiHow 数据集中具有较高的效果及概括性能力。
Aug, 2020
该研究利用自然语言处理技术预测股票价格波动,旨在早期发现能够捕捉市场机会的经济、政治、社会和技术变化。通过从新闻文章中识别重要事实和事件,并使用这些事实与实体形成元组,以获取特定实体的市场变化摘要,最后结合所有摘要形成整篇文章的最终摘要。使用大型语言模型 GPT 3.5 进行摘要提取,并分析维基百科数据和《经济学家》的文章以建立公司和实体之间的关系。该研究旨在开发一种全面的系统,通过提前发现市场趋势和事件,为金融分析师和投资者提供更加明智的决策工具。
Oct, 2023
介绍了一个名叫 MediaSum 的大规模媒体采访数据集,包含 463.6K 份采访文本和摘要,被用于探究电视和广播采访文本的独特位置偏差以及转移学习在改进对话摘要模型上的应用。
Mar, 2021
该研究提出了一种将社交媒体评论和视频相结合的简单而有效的方法来创建电视事件的多媒体摘要,包括基于人物提及频率的场景识别和在此时段内自动选择相关 tweets 和视频画面等。
Mar, 2022