定向众包：拥有十亿（潜在）用户的众包

WWWJun, 2015

定向众包：拥有十亿（潜在）用户的众包

Quizz: Targeted crowdsourcing with a billion (potential) users

Panagiotis G. Ipeirotis, Evgeniy Gabrilovich

TL;DRQuizz 是一个众包系统，利用广告投放来识别知识渊博的用户并评估其能力，借助用户回答未知问题来获取新的知识，通过控制实验并引入短期激励机制，可以在成本更低的情况下以高质量的方式收集和筛选专业话题领域的信息。

Abstract

We describe quizz, a gamified crowdsourcing system that simultaneously assesses the knowledge of users and acquires new knowledge from them. quiz

quizz crowdsourcing knowledge curation incentive mechanisms advertising campaigns

发现论文，激发创造

新闻故事的测验式问题生成

本研究通过建立一套问答生成模型，实现了对在线新闻读者对新闻信息的认知度的度量，并通过实验证明该模型在多项指标上具有优越的性能。

Feb, 2021

众包多项选择题科学问题

本文提出一种新的方法来从众包工作者那里获得高质量、针对领域的多项选择题，该方法通过利用大量的领域特定文本和一小部分现有问题，产生文档选择和答案干扰选项的模型建议，辅助人类提问生成过程。使用这种方法，我们已经组装了 13.7K 的多项选择科学考试题的 SciQ 数据集，并通过提供对这个新数据集的分析和展示人们无法区分众包问题与原问题，证明了这种方法可以产生领域内的问题。当将 SciQ 用作现有问题的附加训练数据时，在真实科学考试中观察到了准确度的提高。

Jul, 2017

揭示群体学习的动态和知识的价值

提出了基于概率建模的众包学习框架，通过利用其他用户对贡献的评估，揭示了用户专业知识随时间的演变。还开发了一个可扩展的估计方法来拟合模型参数，并在 Stack Overflow 上跟踪了约 25,000 个用户的活动，发现高知识价值的答案很少，初学者和专家获得的知识比处于中等水平的用户少，励志经常学习者倾向于是高质量答案的熟练贡献者。

Dec, 2016

在众包环境中估计贡献者的资格和行为以及答案的聚合

本文提出了一种名为 MONITOR 的方法，用来解决众包平台上不同质量的数据聚合问题。该方法通过估计贡献者的资质和行为来确定其贡献者资料，并利用数据信任理论来考虑其潜在不完美的特点，从而更好地聚合贡献者的数据。在真实数据上的实验表明，MONITOR 方法大大提高了聚合后的数据准确性。本文的贡献在于首次提出了一种模型，既考虑了贡献者的资质，也考虑了其行为，用于估计其贡献者资料。其次，还提出了一种根据估计的资料弱化和聚合结果的答案的方法。

Mar, 2023

逐步问答的必要性：Quizbowl 案例

比赛中的增量回答和顺序决策对机器学习和问答模型的挑战，这项研究介绍了三个独特的挑战，其中包括数千个维基百科式答案的事实型问答，对机器学习模型的信心分数进行校准，基于对问题的两种推理：上下文与对手建模。

Apr, 2019

问答系统能从游戏达人身上学到什么

通过创建竞赛数据集，可以激发机器学习回答问题的能力并揭示出哪个系统回答问题最好，但是需要借鉴历史上竞赛社区创建竞赛的经验教训，包括消除歧义、评估技能和裁定争议。

Oct, 2019

对抗性智力问答写作的新界面

通过引入一种收集对抗性人工编写的问题的界面，我们利用人类生成的数据来开发让机器更好应对复杂任务的对抗性数据集，这对于开发问答人工智能是至关重要的。我们的界面不仅为创新的 Quiz Bowl AI 项目 QANTA 收集训练数据，同时也是为问答系统未来对抗性数据收集的一个概念验证。

Mar, 2024

从知识图谱中得出的知识问题

本研究提出一种针对知识图谱（如 DBpedia）自动生成知识问题的方法，通过使用端到端的方法，包括实体选择、三元组查询、答案选择和自然语言问句生成，并使用历史数据和训练分类器来估计问题难度。最后的实验证明了这种方法的可行性。

Oct, 2016

基于测验的知识跟踪

该研究提出了基于测验的知识跟踪模型（QKT），它可以通过一个系列的测验组织学生的历史互动，以准确地评估他们的知识状态，改进在线学习系统中的个性化学习源推荐服务。该模型通过邻接门、门控循环单元和自注意编码器等技术实现了短期和长期知识影响的捕捉，相比于当前方法取得了最优性能。

Apr, 2023

CommonsenseQA：一个针对常识知识的问答挑战

该论文提出了一个常识问答的新数据集 ——CommonsenseQA，并采用了多个目标概念，旨在提高常识推理的难度，在使用 BERT-large 作为基线方法的情况下，最佳准确率为 56%。

Nov, 2018