西方、受教育、工业化、富裕和民主的社交计算研究程度如何?
本文提出了一种基于识别 Twitter 个人资料描述自我报告种族和族裔的方法,以解决目前原有数据集较小、不准确或未覆盖美国四个最常见的种族和族裔群体的问题,有效提供了一个可复现的大规模培训种族和族裔判别系统的资源。
May, 2020
这项研究通过对 24 种语言进行 Word Embedding Association Test (WEAT) 的扩展,以更广阔的研究视角揭示了语言模型的偏见,并通过在全球范围内捕捉有关每种语言的文化相关信息,进一步提高了数据的质量。文章还展示了对毒性、庸能主义等方面的新偏见维度的研究,并通过对印度六种常用语言进行了全面的地区偏见分析,最后通过对嵌入方法的广泛比较强调了这些社会偏见和新维度的重要性,同时强调了解决这些问题对建立更公平的语言模型的必要性。
Oct, 2023
通过分析 500k 篇美国在线新闻文章中存在的社会偏见类型,使用考虑了嵌入表示问题的多种算法以及 WEAT,比较了这些算法在新闻文章中训练的模型所表示的期望社会偏见,结果发现标准偏差检测方法与心理学知识并不一致,而新提出的算法虽然减轻了这种差距,但仍然无法完全匹配这些文献。
Nov, 2022
计算机科学场景理解中存在社会经济偏见,建议采用更具包容性和代表性的训练数据集,以减少偏见并确保计算机视觉技术的公平性和更均等的社会受益。
Jan, 2024
本研究探讨人工智能领域的伦理规范问题,发现虽然现有的一些 AI 会议和出版物已经开始确立人类数据收集的协议和规范,但是这些规范往往被作者忽视,相比之下,在心理学领域进行与众包工人的合作时,生活方式和其他信息的道德审查披露要频繁得多。
Jun, 2023
本研究通过对 57 个顶级计算机科学会议的 171394 篇论文的研究发现,自 2012 年深度学习的出现以来,大型技术公司和精英大学已经增加了在主要人工智能会议上的参与度。然后,本文通过实证证明大型公司和非精英大学之间的分歧由于计算能力或计算机设备的缺乏,这使得机器学习技术的发展在民主化方面面临阻碍和公平性问题,从而强调了民主知识生产缺乏对专业设备的访问。
Oct, 2020
本文提倡将多样性作为核心优先事项,以实现算法公平所追求的不歧视和公正目标,并为计算机科学的从业人员提供具体的多样性措施建议,以增加多样性,并提高算法公平的实践水平。
Feb, 2020
本文研究了在社交计算领域,针对 Twitter 数据执行 ML 分类任务,是否具有遵循模板的最佳实践方法,结果显示,大多数人都没有遵循规则,从而导致数据不可靠。
Dec, 2019
本篇论文调查了 209 篇关于自然语言处理模型中的偏差的论文,提出了社会人口统计学偏见的定义,并确定了研究偏见的三个主要类别:偏见类型,偏见度量和去偏见。作者总结说,目前的去偏见技术是肤浅的,不能真正消除偏见;最后提供了未来工作的建议。
Jun, 2023
本论文使用计量学方法分析计算机科学的元数据,并使用交互式 Web 应用程序 CS-Insights 进行数据可视化,发现了计算机科学领域在过去两十年中出现了大量新的作者和出版物,会议论文的受欢迎程度下降,期刊文章的引用次数更高。
Dec, 2022