集体记忆的诞生：分析文本流中出现的实体

Jan, 2017

集体记忆的诞生：分析文本流中出现的实体

The Birth of Collective Memories: Analyzing Emerging Entities in Text Streams

David Graus, Daan Odijk, Maarten de Rijke

TL;DR通过追踪在公共语料库中的实体，即社会媒体和新闻流中的在线文本流，我们研究了在线上如何形成集体记忆，发现了 “突发” 和 “延迟” 两种主要出现模式。

Abstract

We study how collective memories are formed online. We do so by tracking entities that emerge in public discourse, that is, in online text stream

collective memories online text streams wikipedia emergence patterns public discourse

发现论文，激发创造

微博中新兴实体的早期发现

本研究提出了一种基于时态远程监督的有效方法，以揭示刚被引入公众视野通过微博出现的真正的新兴实体，并以大规模 Twitter 存档的实验结果证明，该方法发现的前 500 个新兴实体的精度达到了 83.2％。

Jul, 2019

EEPT: 使用语义相似度在 Twitter 中早期发现新兴实体

本文提出了一种通过语义聚类短信息的方法来早期发现新兴实体，并设计并利用性能评估指标来评估该方法的性能表现。结果表明，该提议方法发现的新兴实体不仅仅是 Twitter 趋势的范畴。

Jul, 2022

微博中消失实体的早期发现

通过微博的时序帖子，使用具有时间敏感性的远程监督来检测消失的实体，经实验验证使用收集的标记数据和改进的词嵌入的方法能够在嘈杂的环境中获得 70％以上的准确率并且能提前一个月以上发现消失的实体。

Oct, 2022

基于流式社交帖子的事件演化跟踪

本文提出了一种基于社交媒体流的实时事件跟踪方法，包括事件检测、演化模式追踪、以及通过核心帖子绘制草图图形和词云展示等，能够有效处理大量噪声数据。

Nov, 2013

社交数据流的实时事件检测

本研究提出了一种以聚类为基础的实时事件发现系统，能够将 Twitter 上的实时数据进行聚类，识别出不同的事件，并使用 novel metric 评估聚类方法的效果和在实时和线下模式下的表现，实验结果表明该系统在大规模数据上具有很高的效率和准确性。

Jul, 2019

社交媒体中的 Memes 聚类

本研究提出了一种基于聚类的框架来检测社交数据流中的谣言，评估了基于内容、元数据、网络特征和它们的组合的各种相似度度量，并探索了预聚类的想法。系统评估表明，预聚类和异质特征的组合产生了最佳的聚类数量和质量的平衡，证明了一种简单的基于相似性的组合方式与参数优化同样有效。我们的方法是全自动、无监督的，并可实现流数据的实时检测。

Oct, 2013

在线讨论中集体叙事位移的发现

本研究提出了一种系统的叙述性发现框架，通过改变点检测、语义角色标注（SRL）和叙事片段的自动聚合来解决大规模文本下叙述性的提取，并在两个 Twitter 语料库中评估了我们的模型，结果表明我们的方法可以恢复相应于重大事件的主要叙述转变。

Jul, 2023

口语文本中的实体识别

我们研究了基于 BERT 模型的多种训练策略，旨在从口语化文本中识别出医疗领域的症状，并通过一系列实验发现了与这些训练策略相关的模型行为模式，提出了有效识别口语化文本中实体的训练策略设计原则。

Jan, 2024

推文中的命名实体识别与链接分析

本文讨论了对于不规则、嘈杂、依赖上下文及动态性的推文（一种微博形式），运用自然语言处理技术进行挖掘和智能信息访问的挑战，重点关注了从推文中提取实体并进行实体消歧的任务，介绍了一个新的 Twitter 实体消歧数据集，并对多个最先进的 Named Entity Recognition & Disambiguation 模型进行了实证分析。

Oct, 2014

从新闻中学习：在 Twitter 上预测实体的热度

本文使用监督学习方法，基于新闻周期预测 Twitter 上实体的受欢迎程度，并提取四类特征进行预测，结果表明新闻是预测 Twitter 实体受欢迎程度的良好信息源。

Jul, 2016