利用嘈杂的自报告预测 Twitter 用户人口统计信息
本研究到了关于文档分类模型公平性评估的现有研究,主要使用无作者人口属性基准事实的合成单语言数据。在该工作中,作者们汇编并发布了一个多语言 Twitter 语料库,用于推断作者的四个人口属性:年龄,国家,性别和种族 / 民族。该语料库涵盖了五种语言:英语、意大利语、波兰语、葡萄牙语和西班牙语。我们使用 Figure Eight 的众包平台评估了推断出的人口属性标签的准确性。为了检查可能引起偏见的因素,我们对英语语料库进行了人口预测的实证分析。我们评估了四种流行文档分类器的性能,并评估了基准分类器在作者级人口属性上的公平性和偏见。
Feb, 2020
本研究使用多语言人口统计学推断方法和后统计方法来纠正社交媒体数据的样本偏差,并减少算法偏差,在欧洲的跨语言环境下,并取得了显著的改进。
May, 2019
本文描述了一种名为 Twitter-Demographer 的工具,该工具旨在为 NLP 从业者和社会科学家提供聚合信息,促进再现性,并为伪匿名提供算法隐私保护措施。
Jan, 2022
通过分析 Twitter 数据,研究表明基于互联网社交媒体平台上的行为可以显示个体的心理健康状况。先前的研究引发了有关模型偏差的担忧,这项研究分析了基于 Twitter 数据训练的抑郁症分类器在不同人口群体(如性别和种族 / 民族群体)中的公平性,发现模型性能在代表人群中系统性差异,这些差异不能完全通过数据表示问题来解释,研究最终提出了如何避免这些偏差的建议。
Mar, 2021
提出了一种基于地理位置标记推特的计算方法,能够以细微的地理分辨率、灵活的地理边界与不同时间间隔推测人口统计学数据,通过对性别、种族 / 族裔等因素的预测,超越了传统方法的平均相关性。
Jan, 2017
本研究针对 Twitter 用户的情况,使用低维向量表示的图形嵌入技术来提取用户的社交网络信息,并用此信息预测 Twitter 用户的职业阶层和收入水平,结果显示该方法优于现有的方法,并且将社交网络和语言信息相结合可以进一步提高预测结果。
Apr, 2018
研究评估了标准的限制分层技术,发现它们不能提高对美国县级人口健康状况统计数据的预测准确性;该研究提出了三种方法组成的鲁棒后分层技术,显著提高了预测精度。
Nov, 2019
注释者的社会人口背景对主观 NLP 任务的决策产生很大影响。社会人口提示是一种技术,用于将基于提示的模型的输出指引到具有特定社会人口特征的人会给出的答案。本研究通过对七个数据集和六个模型系列进行评估,得出了几个关键发现,并提出使用社会人口提示来识别不明确的实例,从而进行更加明智的注释工作。
Sep, 2023
该论文介绍了一个利用 Twitter 用户聚合的方法来构建社区级别模型,可以有效的准确预测人口相关,包括人口统计、健康和心理预测等四个不同领域的结果(例如,可以将用于预测收入中位数的皮尔逊相关系数从 0.73 提升到 0.82)。
Aug, 2018