ACLJun, 2021

如何制定有效的群众外包协议以解决困难的自然语言理解(NLU)数据收集任务?

TL;DR本文以多项选择问题回答为测试基础,运用随机实验、数据收集协议及专家评估对比效果,发现训练众包工作者并采用迭代数据收集、传递回馈、基于专家判断进行筛选更为有效,但将普通众包判断及回馈替换为专家判断及回馈则效果不佳,最终观察到具有专家评估的迭代协议数据等级高于基线协议数据,并且人 - 模型差距大约是基准协议数据的两倍。