信息最大化的 HodgeRank 算法用于众包排名聚合

AAAINov, 2017

信息最大化的 HodgeRank 算法用于众包排名聚合

HodgeRank with Information Maximization for Crowdsourced Pairwise Ranking Aggregation

Qianqian Xu, Jiechao Xiong, Xi Chen, Qingming Huang, Yuan Yao

TL;DR研究了基于信息最大化的主动抽样策略，旨在智能地为任务请求者分配有限的预算，以提高标注质量和效率，经实验证明，该方法比传统的抽样方案表现更好，更适合于实际的众包实验。

Abstract

Recently, crowdsourcing has emerged as an effective paradigm for human-powered large scale problem solving in various domains. However, task requester usually has a limited amount of budget, thus it is desirable to have a policy to wisely allocate the budget to achieve better quality.

crowdsourcing budget allocation information maximization active sampling hodgerank

发现论文，激发创造

基于稀疏随机图的 HodgeRank 众包采样策略分析

本文分析了 HodgeRank 估算器的两种随机抽样方法 —— 有替换和无替换的方法，并使用随机图理论中的工具来测量估算器的稳健性，提供了这两种随机图模型的 Fiedler 值的新估计，基于我们的发现，对于需要比较的项目较少的情况下，我们建议采用两阶段取样策略，并在第二阶段采用无替换的随机取样方法。而对于需要比较的项目较多的情况，则建议使用带替换的随机取样方法，此方法计算廉价且易于并行化。

Feb, 2015

Hyrbid-MST: 一种用于成对偏好聚合的混合主动抽样策略

本文提出了一种混合主动抽样策略，利用贝叶斯优化和 Bradley-Terry 模型构建效用函数，并使用高斯 - 好米特积分来评估期望的信息增益，从而恢复稀疏噪声对标。在每次试验中使用全局最大期望信息增益样本或最小生成树样本的混合主动抽样策略，其决定于测试预算。该方法在模拟和实际数据集上均表现出比现有方法更高的偏好聚合能力。

Oct, 2018

统计排名与组合霍奇理论

使用图 Helmholtzian 和组合 Hodge 理论，基于边缘流的成对排名可以解析为两个正交成分，其中一个表示 L2 最优全局排名，而另一个表示无旋转流，同时还可以通过线性最小二乘回归计算离散的 Hodge 分解。

Nov, 2008

Max-MIG: 一种信息论方法用于从众包中进行联合学习

提出了一种信息论方法，Max-MIG，可以同时聚合众包标签和学习准确的数据分类器，并设计了一个准确的数据 - 众包预测器，可以预测信息结构未知的众包数据准确性。

May, 2019

众包场景下的动态任务分配

本文提出一种基于互信息解释的众包问题优化任务分配的方法，通过动态任务分配实现更高的准确度和可能需要更少的标签，从而提高了任务分配的效果。

Jan, 2017

自适应组合最大化：超过近似贪心策略

我们研究了自适应组合最大化问题，在机器学习中是一个核心挑战，并应用于主动学习以及其他许多领域。我们研究贝叶斯设置下，考虑最大化目标在基数约束和最小成本覆盖下。我们提供了新的综合近似保证，包括之前的结果，并且更加加强了它们。我们的近似保证同时支持最大增益比以及接近次模效用函数，包括了在基数约束和最小成本覆盖下的最大化保证。此外，我们对一种修改后的先验提供了近似保证，这对于获得独立于先验最小概率的主动学习保证至关重要。此外，我们发现了一种自适应选择策略的新参数，称之为 “最大增益比”。我们展示了这个参数比之前近似保证中使用的贪婪近似参数要更加宽松，并展示了它可以提供比之前结果更强的近似保证。特别地，我们展示了最大增益比永远不会大于策略的贪婪近似因子，并且它可以大为缩小。这为自适应组合最大化中有用的策略特性提供了新的见解。

Apr, 2024

通过费舍尔信息和信息论量统一主动学习和主动采样方法

本文回顾了贝叶斯最优实验设计的基础，并表明被称为期望信息增益或 BALD 的预测和模型参数之间的互信息以及被称为预测信息增益的获取候选和测试样本之间的互信息可以作为信息理论量的近似，提出了一种连接所谓分歧文献的统一框架。

Aug, 2022

神经群体 Infomax 快速稳健非监督学习的信息论框架

提出了一种基于 infomax 原理的框架，可实现对大规模神经群体进行无监督学习。该方法使用基于渐近的方法来对大规模神经群体的信息论下限进行计算，通过渐进性的不断往全局信息论最优解靠近的过程，可以获得一个很好的初始值。基于该初始值，提出了一个高效的算法来从输入数据集中学习特征表示，并且该方法适用于完备、过完备和欠完备情况下的基函数。和现有的方法相比，该算法在无监督表示学习的训练速度和鲁棒性方面都具有明显的优势，而且还可以轻松地扩展到用于训练深层结构网络的监督或无监督模型。

Nov, 2016

众包的正则化极小极大条件熵

本文提出了一种利用极小化最大条件熵原理从嘈杂的众包标签中推断出真实标签的独特概率标记模型，该模型考虑到了工人能力和项目难度等因素，并提出了客观测量原则验证。

Mar, 2015

可靠众包系统的预算最优任务分配

本文考虑众包任务分配中的可靠性问题，提出了一种基于置信传播和低秩矩阵逼近的算法来决定如何分配任务，并从工人的答案中推断出正确答案。比较了不同算法的表现，发现基于者非自适应的算法是最优的。此外，还强调了建立可靠的工人信誉系统对于完全运用自适应设计的潜力至关重要。

Oct, 2011