本研究提出了一种基于时态远程监督的有效方法,以揭示刚被引入公众视野通过微博出现的真正的新兴实体,并以大规模 Twitter 存档的实验结果证明,该方法发现的前 500 个新兴实体的精度达到了 83.2%。
Jul, 2019
本文提出了一种通过语义聚类短信息的方法来早期发现新兴实体,并设计并利用性能评估指标来评估该方法的性能表现。结果表明,该提议方法发现的新兴实体不仅仅是 Twitter 趋势的范畴。
Jul, 2022
通过微博的时序帖子,使用具有时间敏感性的远程监督来检测消失的实体,经实验验证使用收集的标记数据和改进的词嵌入的方法能够在嘈杂的环境中获得 70%以上的准确率并且能提前一个月以上发现消失的实体。
Oct, 2022
本文提出了一种基于社交媒体流的实时事件跟踪方法,包括事件检测、演化模式追踪、以及通过核心帖子绘制草图图形和词云展示等,能够有效处理大量噪声数据。
Nov, 2013
本研究提出了一种以聚类为基础的实时事件发现系统,能够将 Twitter 上的实时数据进行聚类,识别出不同的事件,并使用 novel metric 评估聚类方法的效果和在实时和线下模式下的表现,实验结果表明该系统在大规模数据上具有很高的效率和准确性。
本研究提出了一种基于聚类的框架来检测社交数据流中的谣言,评估了基于内容、元数据、网络特征和它们的组合的各种相似度度量,并探索了预聚类的想法。系统评估表明,预聚类和异质特征的组合产生了最佳的聚类数量和质量的平衡,证明了一种简单的基于相似性的组合方式与参数优化同样有效。我们的方法是全自动、无监督的,并可实现流数据的实时检测。
Oct, 2013
本研究提出了一种系统的叙述性发现框架,通过改变点检测、语义角色标注(SRL)和叙事片段的自动聚合来解决大规模文本下叙述性的提取,并在两个 Twitter 语料库中评估了我们的模型,结果表明我们的方法可以恢复相应于重大事件的主要叙述转变。
Jul, 2023
我们研究了基于 BERT 模型的多种训练策略,旨在从口语化文本中识别出医疗领域的症状,并通过一系列实验发现了与这些训练策略相关的模型行为模式,提出了有效识别口语化文本中实体的训练策略设计原则。
Jan, 2024
本文讨论了对于不规则、嘈杂、依赖上下文及动态性的推文(一种微博形式),运用自然语言处理技术进行挖掘和智能信息访问的挑战,重点关注了从推文中提取实体并进行实体消歧的任务,介绍了一个新的 Twitter 实体消歧数据集,并对多个最先进的 Named Entity Recognition & Disambiguation 模型进行了实证分析。
Oct, 2014
本文使用监督学习方法,基于新闻周期预测 Twitter 上实体的受欢迎程度,并提取四类特征进行预测,结果表明新闻是预测 Twitter 实体受欢迎程度的良好信息源。
Jul, 2016