垃圾输入，垃圾输出？社交计算机中的机器学习应用论文是否报道了人工标记训练数据的来源？

Dec, 2019

垃圾输入，垃圾输出？社交计算机中的机器学习应用论文是否报道了人工标记训练数据的来源？

Garbage In, Garbage Out? Do Machine Learning Application Papers in Social Computing Report Where Human-Labeled Training Data Comes From?

PDF

R. Stuart Geiger, Kevin Yu, Yanlai Yang, Mindy Dai, Jie Qiu...

TL;DR本文研究了在社交计算领域，针对 Twitter 数据执行 ML 分类任务，是否具有遵循模板的最佳实践方法，结果显示，大多数人都没有遵循规则，从而导致数据不可靠。

Abstract

Many machine learning projects for new application areas involve teams of humans who label data for a particular purpose, from hiring crowdworkers to the paper's authors labeling the data themselves. Such a task is quite similar to (or a form of) →

machine learning structured content analysis social computing twitter data inter-rater reliability

发现论文，激发创造

解决机器学习众包工人的人类主体地位问题

该论文研究了众包的研究，重点关注了众包研究的合适指定和机器学习研究对于研究监督所带来的独特挑战。该论文发现在确定众包工作是否属于人类研究对象方面存在两个挑战，同时呼吁实施相关政策以解决这些问题。

Jun, 2022

机器学习研究中编码的价值观

通过研究高度引用的机器学习论文，本文发现只有少数论文能够说明其与社会需要的联系，而且更少讨论负面潜力。同时，本文还发现，机器学习研究中经常突出强调的几个价值观，如性能、泛化、量化证据、效率、建立在过去的工作基础之上和创新性等，往往在支持权力集中方面存在着假设和影响。最后，作者发现高度引用的论文越来越多地与科技公司和精英大学有着紧密的联系。

Jun, 2021

将众包和主动学习相结合，从推文中分类工作生活事件

本研究针对社交媒体研究中标注过程耗时，使用了基于活跃学习和众包方法的策略，评估了 4 种不同的活跃学习策略对于自动分类的影响，结果表明众包可以有效提高标注的质量，而活跃学习则有助于减少所需的推文数量。

Mar, 2020

档案馆的教训：机器学习中收集社会文化数据的策略

本文强调数据收集是机器学习中一个被忽视的环节，社会文化机器学习可以从档案馆中汲取数据收集方法的经验，以此提高数据收集的公正性、透明度等方面。

Dec, 2019

将人类从学习应用中剔除：自动化机器学习综述

本文介绍了 AutoML 问题的定义和解决方案，项目分类和现有工作的审查，并提出了一个 AutoML 框架以减少对人类专家的需求和提高学习性能。

Oct, 2018

自动化数据标注在战略人工智能代理下的风险和潜在解决方案

机器学习模型在社会领域中应用越来越广泛，本文研究了当模型利用自身注释的样本进行重训练，并结合人类战略反应时的长期影响，分析了它们在动态交互下的演变，并提出了一种改进的重训练过程来稳定这种动态，最后研究了这些重训练过程如何影响算法公平性，发现在每个回合都强制执行公平性约束可能无法长期惠及弱势群体。

May, 2024

机器学习中的信任和安全挑战：一项关于虚假信息检测的案例研究

机器学习在信任与安全问题中的应用存在研究和实践之间的脱节，以误信息检测为案例研究，我们系统化了 270 篇领域内有广泛引用的文献，并对其中的数据和代码可用性、设计失误、可重现性和普适性进行了检查。我们发现文献中存在显著的不足之处，对所声称的性能和实用性提出了质疑。检测任务往往与在线服务面临的挑战有实质性区别。数据集和模型评估往往不代表现实世界环境，评估通常也与模型训练不独立。数据和代码的可用性较差，模型在领域外的数据上泛化效果不佳。基于这些结果，我们提出了评估解决信任与安全问题的机器学习应用的建议，希望未来的研究能避免我们所识别的问题。

Aug, 2023

引用是否能反映一篇论文的可重复性？机器学习论文案例研究

使用下游引文语境作为可再现性的信号进行情感分析，以解释机器学习复现挑战中复现尝试的积极或消极结果。

May, 2024

多语言推特情感分类：人类标注员的角色

该研究分析使用不同语言的大量手动标记的推文作为训练数据构建自动分类模型时，训练数据的质量和数量对于分类模型的质量比所使用的模型类型更为重要，并且当训练集的大小足够大时，模型的性能接近于标注者一致性，但定期监视标注者的一致性是非常重要的，从而改善训练数据集和模型性能，最后我们还表明，有强有力的证据表明，人们认为情感类别（消极的，中性的和积极的）是有序的。

Feb, 2016

面向通用、可扩展的贝叶斯教学框架及其在主题模型中的应用

通过基于人类教学的伪边际抽样实现机器学习的普适性教学方法，成功地在主题模型上进行训练，并在电影简介数据中验证了该方法的优势。

May, 2016