走向深度语义分析的 Hashtags
本文提出了一种基于神经网络和成对排名的方法,用于从社交媒体数据中提出具有元数据价值的 hashtag,并证明该方法比现有最先进的方法能够更准确地对 hashtag 进行分割。同时,作者还表明,这种更深层次的 hashtag 语义理解通过分割的方式对于情感分析等下游应用场景非常具有用处。
Jun, 2019
本文对 Instagram 上分享的 hashtag 进行了首次大规模实证分析,揭示了从时空、语义和社会维度出发的一系列发现,其中包括时序模式可划分为四个不同群集、语义位移较大的 hashtag 有不可忽略的比例、用户分享较均匀的 hashtag 不易语义位移。最后,作者提出了一个双向图嵌入模型以总结用户的 hashtag 概要,并基于这些概要进行好友预测,证明 hashtag 具有强大的社交信号。
May, 2019
本研究提出了一种基于 Hashtag 的推文分类模型(HashTation),该模型能够自动为输入推文生成有意义的 Hashtag,以提供有用的辅助信号进行推文分类。实验表明,HashTation 在低资源推文分类任务上取得了显著提高,从而减少了对大规模人工标记数据的需求。
Feb, 2023
本文提出了一种新的序列生成框架方法,通过将 hashtag 视为简短的单词序列来自动标注微博帖子的 hashtag,并提出了一个双向关注的方法来一起处理目标文章和由它们引发的对话内容。实验结果表明,我们的模型显著优于基于分类的现有模型,并能够有效生成罕见甚至未见过的 hashtag。
May, 2019
提出了一个新的散列标记数据集 ——HashSet 数据集,包括 1.9k 手动标注数据集和 3.3M 弱监督数据集,并表明现有的数据集不能很好地反映真实散列标记的变化,HashSet 数据集对于训练和评估散列标记模型提供了可供选择的散列标记集。
Jan, 2022
该文介绍了推特上隐含实体链接的问题并提出了解决方法,利用实体的事实和上下文知识来进行实体链接任务,并展示了隐式实体链接的重要性和相关价值,并公开了真实数据集以促进该新领域的研究。
Jul, 2017
本文试图通过利用微博中的社交网络结构,将作者、提及和实体编码成一个连续向量空间,并将这些向量纳入神经结构预测模型中,以捕捉实体链接任务中固有的结构约束。与现有的最新技术相比,这些设计决策在基准数据集上的 F1 值提高了 1%-5%。
Sep, 2016
本研究提出了一种新方法,利用情感话题标记在自然语言推理框架中增强仇恨言论检测,并在实际数据集上证明了其相对于现有表示学习模型的有效性。
Apr, 2022
本文讨论了对于不规则、嘈杂、依赖上下文及动态性的推文(一种微博形式),运用自然语言处理技术进行挖掘和智能信息访问的挑战,重点关注了从推文中提取实体并进行实体消歧的任务,介绍了一个新的 Twitter 实体消歧数据集,并对多个最先进的 Named Entity Recognition & Disambiguation 模型进行了实证分析。
Oct, 2014
本文关注 Twitter 上的集体关注和 Hashtag 的流行度峰值,通过数据分析和文本挖掘技术,提供了 Hashtag 类别的语义特征,发现流行度峰值主要由外部因素而非流行病学因素所驱动。
Nov, 2011