EEPT: 使用语义相似度在 Twitter 中早期发现新兴实体
本研究提出了一种基于时态远程监督的有效方法,以揭示刚被引入公众视野通过微博出现的真正的新兴实体,并以大规模 Twitter 存档的实验结果证明,该方法发现的前 500 个新兴实体的精度达到了 83.2%。
Jul, 2019
社交平台是传播和讨论真实事件信息的关键平台,本研究提出了一种利用社交数据的词汇、语义和上下文表示来检测社交事件的框架,通过利用上下文知识在最早的阶段检测语义相关的推文并提高聚类质量,进而展示每个事件的演变变化。经过广泛实验验证了该框架在检测和区分社交事件方面的有效性。
Jul, 2023
通过微博的时序帖子,使用具有时间敏感性的远程监督来检测消失的实体,经实验验证使用收集的标记数据和改进的词嵌入的方法能够在嘈杂的环境中获得 70%以上的准确率并且能提前一个月以上发现消失的实体。
Oct, 2022
本文使用监督学习方法,基于新闻周期预测 Twitter 上实体的受欢迎程度,并提取四类特征进行预测,结果表明新闻是预测 Twitter 实体受欢迎程度的良好信息源。
Jul, 2016
本研究提出了一种以聚类为基础的实时事件发现系统,能够将 Twitter 上的实时数据进行聚类,识别出不同的事件,并使用 novel metric 评估聚类方法的效果和在实时和线下模式下的表现,实验结果表明该系统在大规模数据上具有很高的效率和准确性。
Jul, 2019
本文讨论了对于不规则、嘈杂、依赖上下文及动态性的推文(一种微博形式),运用自然语言处理技术进行挖掘和智能信息访问的挑战,重点关注了从推文中提取实体并进行实体消歧的任务,介绍了一个新的 Twitter 实体消歧数据集,并对多个最先进的 Named Entity Recognition & Disambiguation 模型进行了实证分析。
Oct, 2014
通过追踪在公共语料库中的实体,即社会媒体和新闻流中的在线文本流,我们研究了在线上如何形成集体记忆,发现了 “突发” 和 “延迟” 两种主要出现模式。
Jan, 2017
该文介绍了推特上隐含实体链接的问题并提出了解决方法,利用实体的事实和上下文知识来进行实体链接任务,并展示了隐式实体链接的重要性和相关价值,并公开了真实数据集以促进该新领域的研究。
Jul, 2017
本文提出一种基于事件的异构信息网络,结合外部知识库,基于元路径相似度搜索的社交事件检测和演化发现框架,并利用基于加权元路径实例相似性和文本语义表示的新颖 PP-GCN 对社交事件进行细粒度分类,该框架优于其他替代的社交事件检测和演化发现技术。
Apr, 2021
本篇文章阐述了使用图论、频繁项集和关联规则理论,构建和检索不同特征来进行推测性分析,揭示与指定实体相关的推文的语义结构。并且证明了语义频繁项集的定量特征可以用于具有指定目标变量的预测回归模型。
Jan, 2022