SCStory：自监督和持续在线故事探索

WWWNov, 2023

SCStory：自监督和持续在线故事探索

SCStory: Self-supervised and Continual Online Story Discovery

Susik Yoon, Yu Meng, Dongha Lee, Jiawei Han

TL;DRSCStory 是一个在线故事发现的框架，通过自我监督和持续学习的方法，使用文章的句子和文章表征，识别与故事相关的信息并发现故事，能够适应快速变化的新闻文章流。

Abstract

We present a framework scstory for online story discovery, that helps people digest rapidly published news article streams in real-time wi

scstory online story discovery news article streams story-indicative semantics evolving news article streams

发现论文，激发创造

通过可扩展的主题嵌入从连续新闻流中无监督地发现故事

该研究提出了一种基于主题嵌入、动态嵌入和自适应聚类的框架 USTORY 实现了无监督在线故事发现，并在真实新闻数据集上进行了全面评估，结果表明 USTORY 的性能比基线更高，并且具有鲁棒性和可扩展性。

Apr, 2023

基于多尺度图划分的内容驱动非监督式新闻文章聚类

介绍了一种利用自然语言处理和图论工具结合的方法，通过向量表示和多尺度社团检测技术对文本进行分析和分类，得出了一组组具有相似内容的文档，揭示了主题和子主题的类层次结构。

Aug, 2018

从大规模突发新闻事件中在线培育新闻故事森林

在腾讯实现了一套新闻内容组织系统（Story Forest），通过在线方式准确快速的从大量新闻文本中提取可区分事件，并将相关事件连接在不断延伸的树形结构中以呈现演变的新闻故事，通过大量实际数据和用户体验研究表明了 Story Forest 相对于其他算法框架可以更好的组织新闻文本并且具有更好的用户体验。

Mar, 2018

一种高效的自监督跨视角句子嵌入训练

我们提出了一种称为自监督跨视图训练（SCT）的框架，以缩小大型和小型预训练语言模型（PLM）之间性能差距，并在 7 个语义文本相似性（STS）基准测试中通过与 5 个基准和最先进的竞争对手的比较，在参数数量从 4M 到 340M 范围内的 5 个 PLMs 上证明 STC 在 21 个案例中的 18 个中胜过竞争对手，对于参数少于 100M 的 PLMs 表现出色。

Nov, 2023

查询焦点场景构建

本研究基于一类聚类的方法，通过针对新闻报道数据提取兼容事件的查询系统，根据添加事件的顺序逐步评估每个事件的兼容性，使用合成数据进行模型训练，在新的人为筛选数据集上实现了较高表现且优于现有基准，相信更强大的神经网络模型和更严格的训练设置将有助于促进后续研究。

Sep, 2019

分层神经故事生成

该研究探讨了故事生成：创作系统可以在一个主题上构建连贯流畅的文本段落，使用一个大规模的数据集，通过分层式故事生成模型，研究人员成功地实现了模型融合，引入了新的门控多尺度自注意机制，并在自动化和人工评估中实现了显著的改进。

May, 2018

知识增强型视觉叙事

该研究提出了 KG-Story，这是一个通过使用外部知识图谱生成有趣故事的三阶段框架，采用序列化的照片作为输入，比起现有最先进的系统，经人类评价的结果表明 KG-Story 产生的故事平均排名更好。

Dec, 2019

新闻故事：用视觉摘要来说明文章

该研究探索了一个新的问题，即学习对不同长度和数量的图像文本具有强鲁棒性的自我监督视觉语言表示法，其介绍了一个包括超过 31M 篇文章，22M 张图片和 1M 个视频的大规模多模态数据集，并表明最先进的图像文本对齐方法不能很好地处理带有多张图像和更长篇幅的叙述，且还提出了一种直观的基线方法，在 GoodNews 数据集上零样本图像集检索表现比这些方法高出 10%。

Jul, 2022

SCO-VIST: 基于社交互动常识知识的视觉叙事

SCO-VIST 框架使用图表示形式，结合语义和基于发生的边权重，通过 Floyd-Warshall 算法生成视觉叙事。在多个指标上，该框架在视觉根植性、连贯性、多样性和人性上优于其他模型，经过自动和人工评估。

Feb, 2024

来自微型文本的非参数贝叶斯故事线检测

我们用基于距离依赖的中文饭店过程（dd-CRP）提出了故事情节检测的一个新的在线非参数贝叶斯框架。通过使用固定滞后吉布斯采样过程来保证高效的线性推断，衡量方法在 TREC Twitter 时间线生成（TTG）上表现出色，与 2014 年 TTG 任务的最佳结果相当，尽管采用的是一个较弱的基线检索模型。

Jan, 2016