西方、受教育、工业化、富裕和民主的社交计算研究程度如何？

Jun, 2024

西方、受教育、工业化、富裕和民主的社交计算研究程度如何？

How Western, Educated, Industrialized, Rich, and Democratic is Social Computing Research?

Ali Akbar Septiandri, Marios Constantinides, Daniele Quercia

TL;DR社交计算、偏见、WEIRD 人口、数据集来源、研究包容性。

Abstract

Much of the research in social computing analyzes data from social media platforms, which may inherently carry biases. An overlooked source of such bias is the over-representation of WEIRD (Western, Educated, Ind

social computing bias weird populations dataset origins research inclusivity

发现论文，激发创造

利用嘈杂的自报告预测 Twitter 用户人口统计信息

本文提出了一种基于识别 Twitter 个人资料描述自我报告种族和族裔的方法，以解决目前原有数据集较小、不准确或未覆盖美国四个最常见的种族和族裔群体的问题，有效提供了一个可复现的大规模培训种族和族裔判别系统的资源。

May, 2020

全球之音、地方偏见：跨语言的社会文化偏见

这项研究通过对 24 种语言进行 Word Embedding Association Test (WEAT) 的扩展，以更广阔的研究视角揭示了语言模型的偏见，并通过在全球范围内捕捉有关每种语言的文化相关信息，进一步提高了数据的质量。文章还展示了对毒性、庸能主义等方面的新偏见维度的研究，并通过对印度六种常用语言进行了全面的地区偏见分析，最后通过对嵌入方法的广泛比较强调了这些社会偏见和新维度的重要性，同时强调了解决这些问题对建立更公平的语言模型的必要性。

Oct, 2023

社会偏见媒体表示准确度的评估：没有完美的单词嵌入模型

通过分析 500k 篇美国在线新闻文章中存在的社会偏见类型，使用考虑了嵌入表示问题的多种算法以及 WEAT，比较了这些算法在新闻文章中训练的模型所表示的期望社会偏见，结果发现标准偏差检测方法与心理学知识并不一致，而新提出的算法虽然减轻了这种差距，但仍然无法完全匹配这些文献。

Nov, 2022

场景识别中的数字鸿沟：揭示深度学习系统中的社会经济偏见

计算机科学场景理解中存在社会经济偏见，建议采用更具包容性和代表性的训练数据集，以减少偏见并确保计算机视觉技术的公平性和更均等的社会受益。

Jan, 2024

人工智能数据丰富化的伦理模棱两可性：评估研究伦理规范和实践中的差距

本研究探讨人工智能领域的伦理规范问题，发现虽然现有的一些 AI 会议和出版物已经开始确立人类数据收集的协议和规范，但是这些规范往往被作者忽视，相比之下，在心理学领域进行与众包工人的合作时，生活方式和其他信息的道德审查披露要频繁得多。

Jun, 2023

AI 的非民主化：深度学习与人工智能研究中的计算差距

本研究通过对 57 个顶级计算机科学会议的 171394 篇论文的研究发现，自 2012 年深度学习的出现以来，大型技术公司和精英大学已经增加了在主要人工智能会议上的参与度。然后，本文通过实证证明大型公司和非精英大学之间的分歧由于计算能力或计算机设备的缺乏，这使得机器学习技术的发展在民主化方面面临阻碍和公平性问题，从而强调了民主知识生产缺乏对专业设备的访问。

Oct, 2020

无表示就无计算：通过多样性避免数据和算法偏见

本文提倡将多样性作为核心优先事项，以实现算法公平所追求的不歧视和公正目标，并为计算机科学的从业人员提供具体的多样性措施建议，以增加多样性，并提高算法公平的实践水平。

Feb, 2020

垃圾输入，垃圾输出？社交计算机中的机器学习应用论文是否报道了人工标记训练数据的来源？

本文研究了在社交计算领域，针对 Twitter 数据执行 ML 分类任务，是否具有遵循模板的最佳实践方法，结果显示，大多数人都没有遵循规则，从而导致数据不可靠。

Dec, 2019

自然语言处理中社会人口统计信息偏差调查

本篇论文调查了 209 篇关于自然语言处理模型中的偏差的论文，提出了社会人口统计学偏见的定义，并确定了研究偏见的三个主要类别：偏见类型，偏见度量和去偏见。作者总结说，目前的去偏见技术是肤浅的，不能真正消除偏见；最后提供了未来工作的建议。

Jun, 2023

使用 DBLP Discovery 数据集分析计算机科学研究的现状

本论文使用计量学方法分析计算机科学的元数据，并使用交互式 Web 应用程序 CS-Insights 进行数据可视化，发现了计算机科学领域在过去两十年中出现了大量新的作者和出版物，会议论文的受欢迎程度下降，期刊文章的引用次数更高。

Dec, 2022