在社交媒体上检测东亚偏见

May, 2020

Detecting East Asian Prejudice on Social Media

Bertie Vidgen, Austin Botelho, David Broniatowski, Ella Guest, Matthew Hall...

TL;DR本研究基于 Python 语言构建了一个分类器，对 Twitter 上的帖子进行检测和分类，并从东亚敌对、东亚批评、东亚偏见元讨论和中性四个方面进行分析。该分类器可帮助在线内容管理和研究，以深入了解和应对全球疫情期间东亚偏见的动态、普遍性和影响。

Abstract

The outbreak of covid-19 has transformed societies across the world as governments tackle the health, economic and social costs of the pandemic. It has also raised concerns about the spread of hateful language and preju

发现论文，激发创造

种族主义是一种病毒：COVID-19危机中的反亚裔仇恨和社交媒体对话

本研究使用手动标记的数据集，通过分析Twiiter上COVID-19期间的反亚裔仇恨言论和抗议言论，探究了种族仇恨言辞的演变和传播机制，并发现抗议言辞可有效地遏制种族仇恨言辞的传播。

May, 2020

利用情感分析和深度学习进行跨文化极性和情感检测：以COVID-19为例的案例研究

本研究利用自然语言处理和深度学习技术，对推特帖子进行情感极性和情绪的分析，研究发现不同国家在 COVID-19 危机中的反应和情感是基于社会规范和政治意愿的体现，且不同文化之间的差异会导致国家在危机中的决策不尽相同。

Aug, 2020

请勿散布谣言！一种多指示语言的方法用于COVID虚假推文检测

本文提出了一种基于BERT模型的方法，结合社交媒体中提取的相关特征，可以在多种印度语言，包括英语以外的语言中，尽早检测COVID-19的虚假消息，并提出了一种零样本学习方法用于数据稀缺问题。经过严格实验，展示了该方法在虚假消息检测上的有效性，达到89%的F值，在Hindi和Bengali Tweets中初步建立了基准，分别达到79%和81%的F值。

Oct, 2020

应对敌对行为：社交媒体中的 Covid-19 虚假新闻和敌对帖子检测

本文介绍了AAAI-2021 CONSTRAINT共享任务中开发的系统，包括在英语中检测COVID19虚假新闻和在印地语中检测敌对帖子。该研究使用SVM，CNN，BiLSTM和CNN+BiLSTM等技术进行分类任务，结果表明SVM在使用tf-idf特征方面在task-A测试集上实现了最高的94.39％加权$f_1$分数。标签功率集SVM使用n-gram特征在task-B测试集上获得了86.03％的粗分类和50.98％的细分类$f_1$分数。

Jan, 2021

针对亚裔仇恨言论的语音识别任务：以BERT为核心，数据为中心进行关键研究

为了有效地检测和预防针对亚洲人的仇恨言论，我们创建了COVID-HATE-2022数据集，并使用BERT模型和数据细化等策略进行了微调，实验表明数据细化的策略在相关任务中表现最佳，能够有效提高模型性能。

Jun, 2022

使用BERT的COVID-19谣言检测二阶分类器：对印尼推文的研究

本研究通过构建印度尼西亚语COVID-19 Tweets语料库，并使用IndoBERT预训练语言模型建立分类器模型，对tweets中的信息进行关联度和虚假性评估，结果表明，我们的模型精度达到了87.02％。

Jun, 2022

COVID-19期间的多维种族主义分类: 羞辱、冒犯、责备和排斥

本研究提出多维度的种族主义检测模型，结合 BERT 和主题建模等技术，分析了 COVID-19 期间数字平台上的种族主义动态，帮助精准预测并干预公众舆论演变中的反种族主义情绪，并提出了社交网络分析与挖掘等未来研究方向。

Aug, 2022

LaTeX: 面向流行病期间不良体验的语言模式感知触发事件检测

COVID-19疫情加剧了美国不同种族和民族之间的社会经济差距，本研究探索社交媒体平台在凸显和解决这些挑战中的作用，通过分析Twitter上与失业收入损失、食物匮乏、住房不安全和精神健康服务需求不满等四种主要不利经历相关的语言模式，提出了一个基于社交媒体数据源提取语言特征的稀疏优化问题，并通过利用先前关于不良经历语言模式相似性的先验知识提出了新的特征相似性约束，该问题由于非凸目标和不平滑惩罚而具有挑战性，我们基于交替方向乘子法（ADMM）框架开发了一个算法来解决所提出的问题，对真实世界的社交媒体数据进行了广泛的实验和与其他模型的比较，证明了我们模型的有效性。

Oct, 2023

使用现成的情感相关推特分类器研究姓名和困惑中的民族偏见

应用一种方法，量化与各国命名实体相关的偏见。通过对目标领域数据进行微小扰动创造反事实例子，而不是依赖于模板或特定数据集来检测偏见。在包括情感、情绪、仇恨言辞和冒犯性文本的推特数据上应用广泛使用的主观分析分类器，我们的结果表明，与一个国家的语言相关的正向偏见存在于所有研究的分类器中。值得注意的是，句子中特定的国家名称可以强烈影响预测结果，仇恨言辞检测中的变化最高可达23％，负面情绪（例如愤怒）的预测结果变化最高可达60％。我们假设这些偏见源于预训练语言模型（PLMs）的训练数据，并发现了英语和巴斯克语、毛利语等未知语言在情感预测和PLMs可能性之间的相关性，揭示了明显的模式。此外，我们在同一个句子的反事实例子之间跟踪这些相关性，去除了语法组成部分，发现有趣的结果表明预训练数据对于英语国家名称更为重要。我们的匿名代码可以在[this https URL]（此处提供）找到。

Jul, 2024

使用大语言模型对COVID-19期间的反华情绪进行纵向情感分析

本研究解决了COVID-19疫情期间因反华情绪加剧而导致的歧视问题，特别是针对华人的不公现象。通过利用大型语言模型（LLMs），我们提出了一种情感分析框架，对社交媒体上的反华情绪进行了纵向分析，发现反华推文的激增与COVID-19病例的增加存在显著相关性。这一发现强调了疫情如何影响公众情感，并指出政治叙述和错误信息对社会舆论的影响。

Aug, 2024