微博中新兴实体的早期发现

IJCAIJul, 2019

Early Discovery of Emerging Entities in Microblogs

Satoshi Akasaki, Naoki Yoshinaga, Masashi Toyoda

TL;DR本研究提出了一种基于时态远程监督的有效方法，以揭示刚被引入公众视野通过微博出现的真正的新兴实体，并以大规模 Twitter 存档的实验结果证明，该方法发现的前 500 个新兴实体的精度达到了 83.2％。

Abstract

Keeping up to date on emerging entities that appear every day is indispensable for various applications, such as social-trend analysis and marketing research. Previous studies have attempted to detect unseen entities that are not registered in a particular →

emerging entities knowledge base microblogs time-sensitive distant supervision twitter

发现论文，激发创造

微博中消失实体的早期发现

通过微博的时序帖子，使用具有时间敏感性的远程监督来检测消失的实体，经实验验证使用收集的标记数据和改进的词嵌入的方法能够在嘈杂的环境中获得 70％以上的准确率并且能提前一个月以上发现消失的实体。

Oct, 2022

EEPT: 使用语义相似度在 Twitter 中早期发现新兴实体

本文提出了一种通过语义聚类短信息的方法来早期发现新兴实体，并设计并利用性能评估指标来评估该方法的性能表现。结果表明，该提议方法发现的新兴实体不仅仅是 Twitter 趋势的范畴。

Jul, 2022

推文中的命名实体识别与链接分析

本文讨论了对于不规则、嘈杂、依赖上下文及动态性的推文（一种微博形式），运用自然语言处理技术进行挖掘和智能信息访问的挑战，重点关注了从推文中提取实体并进行实体消歧的任务，介绍了一个新的 Twitter 实体消歧数据集，并对多个最先进的 Named Entity Recognition & Disambiguation 模型进行了实证分析。

Oct, 2014

从新闻中学习：在 Twitter 上预测实体的热度

本文使用监督学习方法，基于新闻周期预测 Twitter 上实体的受欢迎程度，并提取四类特征进行预测，结果表明新闻是预测 Twitter 实体受欢迎程度的良好信息源。

Jul, 2016

利用全局语境嵌入提升针对性 Twitter 流中实体提及检测

提出一种名为 EMD Globalizer 的框架，利用出现频率挖掘和上下文表示将微博文本中的实体提取出来，可以提高现有 EMD 系统的效果。

Jan, 2022

集体记忆的诞生：分析文本流中出现的实体

通过追踪在公共语料库中的实体，即社会媒体和新闻流中的在线文本流，我们研究了在线上如何形成集体记忆，发现了 “突发” 和 “延迟” 两种主要出现模式。

Jan, 2017

EnrichEvent：为新兴事件提取丰富的社交数据和背景信息

社交平台是传播和讨论真实事件信息的关键平台，本研究提出了一种利用社交数据的词汇、语义和上下文表示来检测社交事件的框架，通过利用上下文知识在最早的阶段检测语义相关的推文并提高聚类质量，进而展示每个事件的演变变化。经过广泛实验验证了该框架在检测和区分社交事件方面的有效性。

Jul, 2023

提高土耳其推文中命名实体识别的实验

本文研究了基于社交媒体文本的命名实体识别，旨在提高土耳其推特上的识别效果，通过放宽语言规则和扩展词汇资源，以及使用简单的标准化方案，得到了实验结果和讨论。

Oct, 2014

走向社交化信息提取：嵌入作者、提及和实体

本文试图通过利用微博中的社交网络结构，将作者、提及和实体编码成一个连续向量空间，并将这些向量纳入神经结构预测模型中，以捕捉实体链接任务中固有的结构约束。与现有的最新技术相比，这些设计决策在基准数据集上的 F1 值提高了 1%-5%。

Sep, 2016

Twitter 上的命名实体识别：短期时间漂移的数据集和分析

本研究旨在探索利用预训练模型进行 Twitter 命名实体识别的问题，构建了一个包含七个实体类型的数据集 TweetNER7，并提供了一组语言模型基线。通过分析不同时期对语言模型性能的影响，尤其是短期降级、基于不同时间段进行语言模型微调的策略和自我标记作为最近标记数据的替代方案。

Oct, 2022