利用嘈杂的自报告预测 Twitter 用户人口统计信息

ACLMay, 2020

利用嘈杂的自报告预测 Twitter 用户人口统计信息

Using Noisy Self-Reports to Predict Twitter User Demographics

PDF

Zach Wood-Doughty, Paiheng Xu, Xiao Liu, Mark Dredze

TL;DR本文提出了一种基于识别 Twitter 个人资料描述自我报告种族和族裔的方法，以解决目前原有数据集较小、不准确或未覆盖美国四个最常见的种族和族裔群体的问题，有效提供了一个可复现的大规模培训种族和族裔判别系统的资源。

Abstract

computational social science studies often contextualize content analysis within standard demographics. Since →

computational social science content analysis demographics social media race and ethnicity

发现论文，激发创造

用于评估仇恨言论识别中人口统计偏见的多语 Twitter 语料库和基准

本研究到了关于文档分类模型公平性评估的现有研究，主要使用无作者人口属性基准事实的合成单语言数据。在该工作中，作者们汇编并发布了一个多语言 Twitter 语料库，用于推断作者的四个人口属性：年龄，国家，性别和种族 / 民族。该语料库涵盖了五种语言：英语、意大利语、波兰语、葡萄牙语和西班牙语。我们使用 Figure Eight 的众包平台评估了推断出的人口属性标签的准确性。为了检查可能引起偏见的因素，我们对英语语料库进行了人口预测的实证分析。我们评估了四种流行文档分类器的性能，并评估了基准分类器在作者级人口属性上的公平性和偏见。

Feb, 2020

从多语种社交媒体数据中推断人口统计和代表性人口估计

本研究使用多语言人口统计学推断方法和后统计方法来纠正社交媒体数据的样本偏差，并减少算法偏差，在欧洲的跨语言环境下，并取得了显著的改进。

May, 2019

Twitter-Demographer：基于流的工具来丰富 Twitter 数据

本文描述了一种名为 Twitter-Demographer 的工具，该工具旨在为 NLP 从业者和社会科学家提供聚合信息，促进再现性，并为伪匿名提供算法隐私保护措施。

Jan, 2022

使用社交媒体进行抑郁研究时的性别和种族公平性

通过分析 Twitter 数据，研究表明基于互联网社交媒体平台上的行为可以显示个体的心理健康状况。先前的研究引发了有关模型偏差的担忧，这项研究分析了基于 Twitter 数据训练的抑郁症分类器在不同人口群体（如性别和种族 / 民族群体）中的公平性，发现模型性能在代表人群中系统性差异，这些差异不能完全通过数据表示问题来解释，研究最终提出了如何避免这些偏差的建议。

Mar, 2021

使用地标推特预测高分辨率地理位置的人口数据

提出了一种基于地理位置标记推特的计算方法，能够以细微的地理分辨率、灵活的地理边界与不同时间间隔推测人口统计学数据，通过对性别、种族 / 族裔等因素的预测，超越了传统方法的平均相关性。

Jan, 2017

利用网络和语言信息预测 Twitter 用户的社会经济属性

本研究针对 Twitter 用户的情况，使用低维向量表示的图形嵌入技术来提取用户的社交网络信息，并用此信息预测 Twitter 用户的职业阶层和收入水平，结果显示该方法优于现有的方法，并且将社交网络和语言信息相结合可以进一步提高预测结果。

Apr, 2018

纠正社会人口选择偏误进行社交媒体人口预测

研究评估了标准的限制分层技术，发现它们不能提高对美国县级人口健康状况统计数据的预测准确性；该研究提出了三种方法组成的鲁棒后分层技术，显著提高了预测精度。

Nov, 2019

仇恨言论检测的作者画像

本文提出了一种基于社区特征的推特用户恶意言论检测方法，实验结果显示该方法在检测恶意言论方面的效果显著优于现有的方法。

Feb, 2019

如何（不）将社会人口信息用于主观 NLP 任务

注释者的社会人口背景对主观 NLP 任务的决策产生很大影响。社会人口提示是一种技术，用于将基于提示的模型的输出指引到具有特定社会人口特征的人会给出的答案。本研究通过对七个数据集和六个模型系列进行评估，得出了几个关键发现，并提出使用社会人口提示来识别不明确的实例，从而进行更加明智的注释工作。

Sep, 2023

基于用户层级聚合的词汇为基础的人口预测的显著性益处

该论文介绍了一个利用 Twitter 用户聚合的方法来构建社区级别模型，可以有效的准确预测人口相关，包括人口统计、健康和心理预测等四个不同领域的结果（例如，可以将用于预测收入中位数的皮尔逊相关系数从 0.73 提升到 0.82）。

Aug, 2018