Twitter 主题分类

COLINGSep, 2022

Twitter Topic Classification

Dimosthenis Antypas, Asahi Ushio, Jose Camacho-Collados, Leonardo Neves, Vítor Silva...

TL;DR本文针对社交媒体中讨论的各种话题，通过推文主题分类研究，提供两个相关数据集用于评估推文分类模型，并在语言模型上进行量化评估和分析。

Abstract

social media platforms host discussions about a wide variety of topics that arise everyday. Making sense of all the content and organising it into categories is an arduous task. A common way to deal with this issue is relying on →

social media topic modeling tweet classification datasets language models

发现论文，激发创造

CTM-- 大规模多视角推文主题分类模型

本文利用提出的神经模型 CTM，从社交媒体中的多模态内容、作者上下文和深层语义线索等方面进行综合建模，从而支持 $300$ 个主题的大规模话题分类，并在 Twitter 上实现了显着的性能提升（相对平均精度分数提高 20%），此方法已成功应用于 Twitter 的生产环境。

May, 2022

选举相关推文自动检测和分类

本文介绍了一种基于深度神经网络的技术框架，用于在 Twitter 上连续纵向地识别和分析选举相关的对话，其模型可以将选举相关的推文检测的 F 分数为 0.92，并将这些推文分类为 22 个主题，其 F 分数为 0.90。

May, 2016

TweetEval: 微博分类的统一基准和比较评估

本文提出了一个新的评估框架（TweetEval），由七个异构 Twitter-specific 分类任务组成，并提供了一组强基准作为起点，并比较了不同的语言建模预训练策略，初步实验表明使用现有的通用语言模型预训练，然后在 Twitter 集上继续训练是很有效的。

Oct, 2020

Twitter 趋势的实时分类

本文研究社交媒体上的热点话题，提出了四种触发器类型以及一种基于社交特征的分类方法，能够有效分类趋势并提供给终端用户，帮助新闻机构及时发现突发新闻。

Mar, 2014

社交媒体中政治关注的两种计算模型

本文介绍了两个计算模型，一个是有监督分类器，一个是无监督主题模型，以自动区分政界人士在社交媒体上发布的内容的话题，是政治传播和社交媒体研究的有效、廉价的计算工具。

Sep, 2019

社交媒体辅助危机管理中有监督分类和无监督主题建模之间的桥梁

采用 BERT 嵌入并进行微调可以适应新危机，发现新主题，并从受监督训练中保留相关类别，利用双向自注意力提取主题关键词。其在人工和自动评估中胜过传统主题模型。

Mar, 2021

零样本基于提示的分类：德语推文中的主题标签

基于最新的自然语言处理技术，本研究通过使用基于写作指南的文本对文本界面而无需提供培训样本的方法，评估其在实际应用中自动化注释任务中的效果，结果表明即使受到本地计算资源限制，这种以提示为基础的方法与经过优化的 BERT 模型相当，且无需任何已标记的训练数据。

Jun, 2024

利用分类器筛选语料库：以在线清洁能源情感为例的案例研究

本文探讨了如何使用经过预训练和微调的 transformer-based 模型筛选社交媒体数据集中的相关文档，以达到高准确度的目的。该方法的低成本和高性能意味着它对于具有不确定语料库边界的社交媒体数据集可能具有广泛的好处。

May, 2023

基于二阶段流理论的主题建模：以比特币相关推文为例

该研究使用 HITS 算法，根据影响力分离数据集，分析了 Twitter 上具有影响力和不具有影响力的用户之间的差异，并采用主题建模揭示了这两个群体在比特币方面的语言和兴趣上的差异。我们发现少数用户（0.72%）代表了大多数（80%）比特币言论的权威性。

Mar, 2023

SemEval-2013 任务 2：Twitter 中的情感分析

通过提出 SemEval-2013 任务 2：Twitter 情感分析的表达级子任务和消息级子任务以及在亚马逊机械土耳其上使用众包技术标记大型 Twitter 训练数据集及其他的测试集，对情感分析在社交媒体上进行了研究。该研究因结果的准确性获得了广泛关注和讨论。

Dec, 2019