众包知识学习：简要综述与系统视角

Jun, 2022

众包知识学习：简要综述与系统视角

Knowledge Learning with Crowdsourcing: A Brief Review and Systematic Perspective

Jing Zhang

TL;DR本文从数据、模型、学习三个维度，全面回顾了 13 年来 AI 社区在众包学习领域的进展，着重提出了每个维度的一些有前途的蓝图，并探讨了过去研究的经验教训，旨在为新研究者提供指引，鼓励他们做出新的贡献。

Abstract

big data have the characteristics of enormous volume, high velocity, diversity, value-sparsity, and uncertainty, which lead the knowledge learning from them full of challenges. With the emergence of →

big data crowdsourcing knowledge learning data models ai community

发现论文，激发创造

计算机视觉中的众包

本篇论文调查了计算机视觉中使用众包方法进行数据标注的类型，并讨论了一些有效的数据采集界面和工作流设计决策，以及智能选取最重要的数据实例进行注释的策略，最后探讨了众包在计算机视觉领域的未来发展。

Nov, 2016

揭示群体学习的动态和知识的价值

提出了基于概率建模的众包学习框架，通过利用其他用户对贡献的评估，揭示了用户专业知识随时间的演变。还开发了一个可扩展的估计方法来拟合模型参数，并在 Stack Overflow 上跟踪了约 25,000 个用户的活动，发现高知识价值的答案很少，初学者和专家获得的知识比处于中等水平的用户少，励志经常学习者倾向于是高质量答案的熟练贡献者。

Dec, 2016

不可信来源中的健壮学习

该研究通过统计学习理论视角研究了机器学习中如何从分布式、众包等外部数据源中进行稳健学习，提出了一种通过自动抑制无关或损坏数据的过程，并通过实验证明其比鲁棒统计和分布式优化的替代方法具有更高的精度和准确性。

Jan, 2019

众包数据库的主动学习

本研究提出一种将机器学习与众包数据库结合的主动学习算法，以实现众包应用程序的可扩展性，并通过实验证明：相比于以往的主动学习方案，我们的方法平均只需要人类标记 1-2 个数量级的数据集就能实现与随机采样相同的精度。

Sep, 2012

无标准数据情况下的众包研究 -- 案例分析

本文研究了在线辅导平台上对话的困扰个体的情绪估计的主观评估任务，探讨了聚合评估者选择的策略，展示了一个简单的投票共识与优化聚合方法在这个任务中同样有效，并设计了一种机器学习算法来执行相同的任务。有趣的是，我们观察到了一个没有明确建模评估者主观性的机器学习算法，在评估最主要的情绪时与人类评估一样可靠。

Jun, 2019

众包深度学习

本文提出了一种基于 EM 算法和众包技术的神经网络训练模型，能够直接从多个标注者的嘈杂标签数据中进行有监督学习，并能够捕捉不同标注者的可靠性和偏见，最终在多个领域获得了新的最优结果。

Sep, 2017

机器学习与消费者数据

数字革命已经导致了人类行为的数字化，出现了众筹和众包等新增的行，这给营销研究和实践者带来了前所未有的机会，但同时也面临着数据过于庞杂和复杂的挑战。为了解决这些问题，开发了计算方法以管理与消费者行为相关的 “大数据” 等技术，特别是机器学习，使得对多方面数据的有效解析和处理成为可能。本文综述了新的数据来源和分析技术，旨在将计算社会科学应用于理解和利用公开的消费者数据。

Jun, 2023

众包市场中的在线决策：理论挑战（立场论文）

本文针对众包在线决策的理论研究和建模问题进行了反思和讨论，并提出了相关算法来优化众包市场的各个方面，涉及众包、人工计算、算法、定价等关键词。

Aug, 2013

应用众包技术丰富高等教育音乐知识库

本文描述了在计算机科学高等教育课程中采用众包技术作为作业的方法和经验教训。通过音乐的相关元数据，采用一种支持文化遗产领域众包的平台并使用语义网技术分析了众包结果。结果为机器学习模型提供了一个公开可用的标注数据集，并且在线调查的反馈得出了将众包技术纳入计算机科学课程的好处和挑战。

Jun, 2023

带有约束条件的贝叶斯众包

本文探讨半监督众包分类在标签约束和实例约束两种情况下的贝叶斯算法，该算法基于变分推断，可以比无监督众包分类更有效地对人工注释信息进行聚合，该算法在多个众包数据集上的分析和实证验证了其表现的可量化提升。

Dec, 2020