通过历时嵌入投影追踪法国1789-1914年间的反犹太语言
本文通过将语义学关系嵌入向量,展示词嵌入的时间动态如何被利用来量化美国20世纪至21世纪对女性和少数民族的刻板印象和态度变化,通过与美国人口普查融合,表明嵌入的变化与时间内的人口和职业转变密切相关,该框架的时间分析为机器学习和数量社会科学之间的新交叉打开了强大的可能性。
Nov, 2017
本文提出了两种改进基于词嵌入的模型的方法,通过引入自动相关确定先验的贝叶斯词嵌入方法以及潜在变量模型锚定方法,实现对词嵌入矩阵的可解释性和可回归性,并应用于美国总统就职演讲中国际主义言论的转变以及美国外交政策制定者争论中的好战性增加相关性分析,得出总统就职演讲中的国际主义言论自1945年以来逐渐减少,而好战行动的增加与美国的敌对行动增加相关的结论。
Apr, 2019
分别分析了1950年到1990年间荷兰六家全国性报纸的性别偏见,结果表明尽管女性就业人数增加且从事女权主义运动,但偏见仍向男性转移。此文章结合语言学方法,使用词向量模型研究历史语言变化。
Jul, 2019
本文通过研究历史语料库中编码的历时分布语义模型,重点关注两种特定形式的偏见,即政治偏见(即反共主义)和种族主义偏见(即反犹太主义),分析德国议会会议记录的新语料库,以期发现历史偏见趋势。同时,还提出了一种新的基于术语共现和基于图形标签传播的偏差度量方法。通过研究结果表明,在不同的时间段内,德国政治中存在反犹太主义和反共产主义的偏见趋势,从而证明了使用从历史语料库产生的语义空间分析历史偏见趋势的可行性。
Aug, 2021
在COVID-19大流行期间,新的阴谋论和现有阴谋论被刷新,经常与反犹太故事情节、刻板印象和代码交织在一起。在网络上存在如此多反犹太和阴谋论内容,数据驱动的算法方法对于反歧视组织和研究人员都是必不可少的。本文旨在开发反犹太和阴谋理论在线内容注释指南,以关闭相关研究的知识库不足。我们为COVID-19这一语境下的在线内容提供工作定义,包括编码式和后-大屠杀反犹太主义等具体形式,使用这些定义标注了一个德语数据集。
Oct, 2022
本研究提出了一种针对在线仇恨言论检测的NLP组特定方法,结合历史和语言知识并通过种族和伦理学等角度对模型进行评估,实验结果表明结合历史数据库可以帮助模型识别细微的刻板印象,同时该方法用于检测反犹太主义仇恨言论,成果将现有的反犹太主义研究和语言知识图谱相结合。
Apr, 2023
构建了一个进行反犹太主义言论自动检测的标注过的数据集,该数据集通过有关关键词,并给予标注人员对一个常用定义的反犹太主义进行刻意强制应用来涵盖广泛的讨论主题,并包括 1250 条符合国际大屠杀纪念联盟关于反犹太主义的定义,并且未被错误标记的推文,该数据集是针对 Twitter 在 2019 年 1 月至 2021 年 12 月期间的英文推文。
Apr, 2023
本文通过时间序列的词汇联想分析,以及针对OCR错误引入噪音的技术处理,研究了加勒比地区殖民时期(18世纪到19世纪)历史报纸中性别、种族偏见的连续性和转化。研究结果表明,种族和性别偏见是相互依存的,两者的交叉触发了不同效应,这与交叉性理论一致。
May, 2023
本文提出了一种检测新兴编码仇恨化术语的方法,该方法在在线反犹太人言论的背景下进行了测试,主要通过对社交媒体平台上的帖子进行抓取并计算其在整个语料库中的频率,以过滤掉语法不连贯的表达和先前遇到过的表达,最后通过对已知的反犹太术语的语义相似性进行评估,并移除与之相距过远的表达,最终返回仅含有编码化仇恨表达的新兴反犹太术语。
Jan, 2024