微博中新兴实体的早期发现
通过微博的时序帖子,使用具有时间敏感性的远程监督来检测消失的实体,经实验验证使用收集的标记数据和改进的词嵌入的方法能够在嘈杂的环境中获得 70%以上的准确率并且能提前一个月以上发现消失的实体。
Oct, 2022
本文提出了一种通过语义聚类短信息的方法来早期发现新兴实体,并设计并利用性能评估指标来评估该方法的性能表现。结果表明,该提议方法发现的新兴实体不仅仅是 Twitter 趋势的范畴。
Jul, 2022
本文讨论了对于不规则、嘈杂、依赖上下文及动态性的推文(一种微博形式),运用自然语言处理技术进行挖掘和智能信息访问的挑战,重点关注了从推文中提取实体并进行实体消歧的任务,介绍了一个新的 Twitter 实体消歧数据集,并对多个最先进的 Named Entity Recognition & Disambiguation 模型进行了实证分析。
Oct, 2014
本文使用监督学习方法,基于新闻周期预测 Twitter 上实体的受欢迎程度,并提取四类特征进行预测,结果表明新闻是预测 Twitter 实体受欢迎程度的良好信息源。
Jul, 2016
提出一种名为 EMD Globalizer 的框架,利用出现频率挖掘和上下文表示将微博文本中的实体提取出来,可以提高现有 EMD 系统的效果。
Jan, 2022
通过追踪在公共语料库中的实体,即社会媒体和新闻流中的在线文本流,我们研究了在线上如何形成集体记忆,发现了 “突发” 和 “延迟” 两种主要出现模式。
Jan, 2017
社交平台是传播和讨论真实事件信息的关键平台,本研究提出了一种利用社交数据的词汇、语义和上下文表示来检测社交事件的框架,通过利用上下文知识在最早的阶段检测语义相关的推文并提高聚类质量,进而展示每个事件的演变变化。经过广泛实验验证了该框架在检测和区分社交事件方面的有效性。
Jul, 2023
本文研究了基于社交媒体文本的命名实体识别,旨在提高土耳其推特上的识别效果,通过放宽语言规则和扩展词汇资源,以及使用简单的标准化方案,得到了实验结果和讨论。
Oct, 2014
本文试图通过利用微博中的社交网络结构,将作者、提及和实体编码成一个连续向量空间,并将这些向量纳入神经结构预测模型中,以捕捉实体链接任务中固有的结构约束。与现有的最新技术相比,这些设计决策在基准数据集上的 F1 值提高了 1%-5%。
Sep, 2016
本研究旨在探索利用预训练模型进行 Twitter 命名实体识别的问题,构建了一个包含七个实体类型的数据集 TweetNER7,并提供了一组语言模型基线。通过分析不同时期对语言模型性能的影响,尤其是短期降级、基于不同时间段进行语言模型微调的策略和自我标记作为最近标记数据的替代方案。
Oct, 2022