- 社交媒体中是否常见使用泛指词和负面评论社会群体?—— 对 Twitter(X)数据的比较分析
使用机器学习技术开发了一个社会泛指的自动分类器,并将其应用于超过一百万条关于人的推文进行分析,发现社会泛指的推文获得更多点赞和转发,且与政治团体相关的泛指推文比与民族团体相关的泛指推文更常见,而针对政治团体的负面泛指推文比针对民族团体的负面 - 智能消息行为识别系统
通过引入 Image Retweet Modeling (IRM) 这一网络模型,本研究探讨了短信息服务(SMS)中预测图片转发的问题,并对用户在 Twitter 上分享照片的行为进行预测。该研究提出了一种基于文本引导的多模神经网络方法,能 - 基于目标和方面的情感分析:从金融推特消息中检测机会和预防措施
我们提出了一种新颖的面向目标的情感分析系统(TABEA),基于自然语言处理技术和机器学习流算法,能够单独识别同一条推文中不同股市资产的金融情绪(正负预测),并取得了 90% 以上的准确率。这个问题在决策中具有实践意义,但现有文献中尚未解决, - 利用堆叠分类系统在微博数据中检测金融机会
我们提出了一种新的系统,用于检测微博社交网络中的积极预测,这是一种金融情绪,类似于 Plutchik 理论中的 “预期”,通过应用自然语言处理技术提取有价值的语言信息,利用三层堆叠的机器学习分类系统和复杂的特征来实现高检测精度。在手动注释了 - ACLCMA-R:用于解释谣言检测的因果中介分析
应用因果中介分析研究了基于神经模型的推特谣言检测决策过程,通过在输入和网络层面进行干预,揭示了推文和模型输出中词汇的因果影响。发现我们的方法 CMA-R 能够识别解释模型预测的显著推文,并与人类判断具有很强的一致性,这些关键推文能够决定故事 - 微文本规范化中音标算法的性能
通过实验一系列语音算法,研究在候选生成过程中对微文本规范化的最佳语音算法,以提高规范化系统的整体性能。
- 阿拉伯推特行为:用加权集成预训练变换器模型对推特上的阿拉伯语言行为进行分类
提出了一种基于变压器深度学习神经网络的推特方言阿拉伯语言言行为分类方法,并采用 BERT 加权集成学习方法,在阿拉伯语言言行为分类中得到了最佳性能。
- SemEval-2017 任务 4: 使用 BERT 进行 Twitter 情感分析
使用 BERT 模型对 SemEval2017 中 Twitter 上的英语情感分析任务 4A 进行解决,在训练数据量较小的分类任务中,BERT 是一个非常强大的大型语言模型。使用此模型进行实验时,我们使用了包含 12 个隐藏层的 BERT - 美国和中国之间的语言基于的情绪价值和唤起表达:跨文化研究
通过对美国的 Twitter 和中国的新浪微博的比较研究,本文探讨了不同社交媒体平台上用户情感(两个主要维度为情感价值和情感唤起度)之间的差异,同时也研究了其关联的内容差异,并发现来自不同文化背景的用户对情感的表达方式存在明显差异,并从语言 - 基于推特的偏见医疗声称级联检测
社交媒体上可能会传播强调社会识别因素与疾病之间误导性相关性的医疗声明,而不考虑健康的结构性决定因素。我们的研究旨在识别 Twitter 上的偏见医疗声明并测量它们的传播程度。我们提出了一个机器学习框架,使用 RoBERTa 模型检测医疗声明 - 分析 MPox 疫情期间公众反应、认知和态度:基于推特话题建模的发现
这篇论文通过对推特上关于 2022 年 MPox 疫情爆发期间发布的 601,432 条推文进行主题建模,得出了四个主要主题,并发现在这个时间范围内,关于 MPox 的观点和看法是推特上最流行的话题。
- AAAISeGA: 基于提示的偏好感知自对比学习用于 Twitter 上的异常用户检测
检测社交媒体中的异常用户是解决误导信息和网络欺凌等恶意活动的关键任务。为了应对异常用户数量的增加,以及这些用户模仿正常用户和逃避检测能力的提高,现有方法仅关注机器人检测,在捕捉用户之间的微妙差别方面显得无效。我们提出了一种利用 Twitte - 加密货币涌入推特货币标签:一种分类解决方案
本研究提出了自动分类器来区分冲突的 $ 标签并通过分析涉及股票公司和加密货币的推文的独特特征来区分它们的容器推文。实验结果确认了当存在冲突或同音异义的 $ 标签时,所收集数据的显著失真。根据我们的结果,包括加密货币和股票公司标签的推文的独特 - 使用 BERT 在新闻和社交媒体之间进行对比链接的研究
通过对比学习模型 CATBERT,在推特和新闻文章之间建立了一个表示空间,能够有效地关联推文和相关新闻文章,对推文级联中的主要话题进行识别。
- THOS:一个面向有针对性的仇恨和攻击性言论的基准数据集
社交媒体上检测有害内容的困难在于看似简单的是 / 否分类隐藏了大量的复杂性。本文介绍了 THOS 数据集,该数据集包含了 8.3k 个带有目标细粒度标注的推文,展示了使用大型语言模型训练分类器在该层级进行分类的可行性。
- 反讽和刻板形象的画像:探索情感、主题和词汇特征
通过词汇特征和 TF-IDF,在 Twitter 用户中检测到具有讽刺意味的信息,并通过特征选择和模型构建达到 F1 得分 0.84 以上。
- ETGraph: 连接以太坊和推特的开创性数据集
ETGraph 是一个将 Ethereum 的交易记录和 Twitter 的关注数据进行链接的数据集,通过对其进行统计分析和一系列实验,发现 Twitter 数据在增强 Ethereum 分析方面起到了重要作用。
- 基于上下文的推文互动预测
利用 RecSys 挑战数据集和评估程序,研究了仅利用上下文是否能够预测推文互动概率,并发现用户的先前互动历史、标签和链接的热度等特征对预测最具信息量。然而,相较于只基于内容的模型和挑战胜利者开发的模型,这些基于上下文的模型在 RCE 得分 - 通过社交媒体预测心血管疾病风险
分析推特的情绪内容可以优于传统人口统计数据,利用自然语言处理和机器学习技术可以识别潜在心血管疾病风险的个体,为公共卫生监测提供了替代方法。
- 推特洞察:从推特提取时间洞察的可视化平台
使用推特获得的大量时间序列数据,通过词嵌入技术和专门微调的语言模型进行后处理,捕捉了过去五年中 n-gram 频率、相似性、情感和主题分布的变化。构建在该数据之上的界面可以进行时间分析,用于检测和描述意义的转变,包括与趋势度量相补充的情感和