斯洛文尼亚新闻媒体中对叙利亚和乌克兰移民的计算分析
本研究在斯洛文尼亚和英语中提供涵盖两个主题(移民和LGBT)的Facebook评论主题数据集,并手动注释了不同类型的社交不当言论(SUD)。研究人员使用相同的抽样程序来生成跨语言的可比数据集,并使用六种类型的SUD注释模式和五个SUD指向的目标来审查数据集,该数据集被认为是理解和打击SUD的重要里程碑。
Jun, 2019
本研究根据社会心理学的研究,创建了一个计算语言分析框架来分析去人性化言论,然后将这个框架应用于分析New York Times自1986年至2015年关于LGBTQ人士的文章。总体而言,我们发现随着时间的推移,LGBTQ人士的被人性化描述越来越多。但是,我们发现与其他标签(例如同性恋)相比,“同性恋”这个标签更容易被视为去人性化的态度。本文所提出的技术揭示了围绕边缘化群体的语言变化和变异的过程,并且大规模分析非人性化言论的能力对于自动检测和理解媒体偏见以及虐待性言论的意义重大。
Mar, 2020
本文从自然语言处理的角度对政治话语任务进行了计算建模,提出了6861个Reddit评论的新数据集Us vs.Them,并根据民粹主义态度建立了第一个大规模计算模型。该研究探讨了民粹主义心态与社会群体之间的关系,以及通常与此类态度相关的一系列情绪。通过设置两项与民粹主义态度相关的任务以及展示情感和群体识别作为辅助任务的多任务学习模型的基线,我们阐述了情感和群体识别作为辅助任务的重要性。
Jan, 2021
本研究介绍了 M-Phasis 语料库,该语料库包含了德语和法语移民相关新闻文章中近九千个用户评论,注释了23个特征以描述不同类型的言语(从批评性评论到隐晦和明确的仇恨表达),并训练了几个基准分类器以探索其数据特征。
Apr, 2022
通过对155年德国政治辩论中对妇女和移民的支持进行测量,我们提供了一个1205个文本片段的支持标准,并使用BERT模型推断大规模趋势。我们的研究结果表明,德国社会在政治精英的支持下,变得更加公正。
Oct, 2022
通过分析欧洲在线新闻和社交媒体上移民话题的表现,本文探究了乌克兰战争对欧洲对乌克兰难民的看法是否有所改观,并发现了一个叫做 '真正的难民' 的新术语逐渐代替了传统‘移民’的称谓,然而公众态度的变化因国家而异。
Feb, 2023
通过研究62000名乌克兰公民在2020年1月至2022年10月期间发表的400多万条限地标志的推特信息,使用统计模型研究了语言选择和推文活动,并确定了行为效应和样本效应。研究表明,随着乌克兰局势的变化,从俄语向乌克兰语转变的趋势加快。
May, 2023
欧洲和移民的在线信息传播很少从外部视角进行研究。本文通过从社交媒体(Twitter)中获取大量数据来分析关于欧洲和移民的在线信息的传播话题、规模和动态,结合转发和主题标签网络分析、用户地理位置定位等,从“欧洲外部”视角,特别关注非洲,揭示了各语言之间跨语言引用的全新方式,结果表明大部分在线讨论发生在国家层面,尤其是讨论移民时,而英语是信息跨国传播和扩散的关键,欧洲为主要内容生成地并在外部放大。值得注意的是,在讨论移民相关话题的社群中,重要的节点包括官方机构和国际组织的账号,以及记者、新闻评论员和活动家。
Feb, 2024
借助迁移相关的社交媒体平台上的代码混合这一多语言演讲方式,我们提出了“多语言代码混合文本的整体学习识别”(ELMICT)的新方法,通过结合多个标记化器输出和预训练语言模型的集成学习技术,ELMICT在识别各种语言和语境下的代码混合方面表现出高性能(准确率F1大于0.95),特别是在跨语言零样本条件下(平均准确率F1大于0.70)。此外,利用ELMICT还可以分析与其他主题类别相比,迁移相关的线图上的代码混合的普遍性,从而揭示出移民社区关注的话题。我们的研究结果揭示了移民在社交媒体平台上采用的沟通策略,为开发包容性数字公共服务和对话系统提供了有益的启示。通过解决本研究提出的研究问题,我们有助于理解移民语言多样性,并为建设多元文化社会中建立信任的更有效工具铺平了道路。
Jun, 2024
应用一种方法,量化与各国命名实体相关的偏见。通过对目标领域数据进行微小扰动创造反事实例子,而不是依赖于模板或特定数据集来检测偏见。在包括情感、情绪、仇恨言辞和冒犯性文本的推特数据上应用广泛使用的主观分析分类器,我们的结果表明,与一个国家的语言相关的正向偏见存在于所有研究的分类器中。值得注意的是,句子中特定的国家名称可以强烈影响预测结果,仇恨言辞检测中的变化最高可达23%,负面情绪(例如愤怒)的预测结果变化最高可达60%。我们假设这些偏见源于预训练语言模型(PLMs)的训练数据,并发现了英语和巴斯克语、毛利语等未知语言在情感预测和PLMs可能性之间的相关性,揭示了明显的模式。此外,我们在同一个句子的反事实例子之间跟踪这些相关性,去除了语法组成部分,发现有趣的结果表明预训练数据对于英语国家名称更为重要。我们的匿名代码可以在[this https URL](此处提供)找到。
Jul, 2024