Twitter 主题分类
本文利用提出的神经模型 CTM,从社交媒体中的多模态内容、作者上下文和深层语义线索等方面进行综合建模,从而支持 $300$ 个主题的大规模话题分类,并在 Twitter 上实现了显着的性能提升(相对平均精度分数提高 20%),此方法已成功应用于 Twitter 的生产环境。
May, 2022
本文介绍了一种基于深度神经网络的技术框架,用于在 Twitter 上连续纵向地识别和分析选举相关的对话,其模型可以将选举相关的推文检测的 F 分数为 0.92,并将这些推文分类为 22 个主题,其 F 分数为 0.90。
May, 2016
本文提出了一个新的评估框架(TweetEval),由七个异构 Twitter-specific 分类任务组成,并提供了一组强基准作为起点,并比较了不同的语言建模预训练策略,初步实验表明使用现有的通用语言模型预训练,然后在 Twitter 集上继续训练是很有效的。
Oct, 2020
本文介绍了两个计算模型,一个是有监督分类器,一个是无监督主题模型,以自动区分政界人士在社交媒体上发布的内容的话题,是政治传播和社交媒体研究的有效、廉价的计算工具。
Sep, 2019
采用 BERT 嵌入并进行微调可以适应新危机,发现新主题,并从受监督训练中保留相关类别,利用双向自注意力提取主题关键词。其在人工和自动评估中胜过传统主题模型。
Mar, 2021
基于最新的自然语言处理技术,本研究通过使用基于写作指南的文本对文本界面而无需提供培训样本的方法,评估其在实际应用中自动化注释任务中的效果,结果表明即使受到本地计算资源限制,这种以提示为基础的方法与经过优化的 BERT 模型相当,且无需任何已标记的训练数据。
Jun, 2024
本文探讨了如何使用经过预训练和微调的 transformer-based 模型筛选社交媒体数据集中的相关文档,以达到高准确度的目的。该方法的低成本和高性能意味着它对于具有不确定语料库边界的社交媒体数据集可能具有广泛的好处。
May, 2023
该研究使用 HITS 算法,根据影响力分离数据集,分析了 Twitter 上具有影响力和不具有影响力的用户之间的差异,并采用主题建模揭示了这两个群体在比特币方面的语言和兴趣上的差异。我们发现少数用户(0.72%)代表了大多数(80%)比特币言论的权威性。
Mar, 2023
通过提出 SemEval-2013 任务 2:Twitter 情感分析的表达级子任务和消息级子任务以及在亚马逊机械土耳其上使用众包技术标记大型 Twitter 训练数据集及其他的测试集,对情感分析在社交媒体上进行了研究。该研究因结果的准确性获得了广泛关注和讨论。
Dec, 2019