稀疏概率一致性
本文介绍了一种名为 Sparse Annotation(SA)的新的众包计数注释方法,我们提出了一种基于点的渐进点匹配网络(PPM),通过 Sparse Annotation 更好地探索群众;实验结果表明,在注释数量相同的情况下,PPM 优于以前的半监督计数方法,并与最先进的全监督方法具有竞争性的性能。
Apr, 2023
使用置信区间寻找估计注释错误率所需的最小样本量,然后提出应用接受抽样作为错误率估计的一种替代方法,展示接受抽样可以减少最多 50% 的所需样本量,同时提供相同的统计保证。
May, 2024
本文提出了一种高效的人工评分数据集构建以及系统质量评估方法,通过直接评估、网络成对排名汇总、混合法等三种评分方式来促进有效标注标量标签,并将其应用于数据集构建和系统评估,以提高与真值的相关性和评估的效率。
Jun, 2018
本研究探讨了复杂注释任务的 IAA 测量设计与评估,评估跨越了图像边界框、文本序列标记、排名列表、自由文本翻译、数值向量和语法树等 7 个多样化任务,并提出了两种新颖的 IAA 测量方法,显示它们在任务和注释距离函数之间产生了更一致的 IAA 测量。
Dec, 2022
该研究提出使用 intra-annotator agreement 衡量标签稳定性,通过 exploratory annotation experiments 探索其与主观性和歧义性之间的关系,为自然语言处理任务提供重要的质量控制。
Jan, 2023
本文提出了一种名为 SSA 的伪属性增强算法,通过利用带有和不带有虚假属性注释的样本来预测虚假属性并最小化最差组损失来实现对噪声数据的高效识别和分类,同时证明了 SSA 算法比使用相同数量样本的基线方法更为有效,并可达到使用更小数量标注样本的方法相当的性能。
Apr, 2022
本文研究了由多个人工标注员(包括专家和非专家)进行的 PICO 注释的一致性,并发现个体标注员的注释边界非常多样化,认为仅使用标准协议可能会削弱 PICO 跨度的一致性,同时采用标准和宽松协议更适用于 PICO 跨度评估。
Apr, 2019
通过给基准数据集中的未注释样本打分,我们提出了一种模型评估方法,用语义文本相似性评估该任务的基于难度的分数,比单纯的评估模型性能更准确,可以避免潜在的偏差以及更广泛的应用。
Oct, 2022
本研究探讨了一种简单的降低标注成本的方法,即采用分层抽样和控制变量等技术,结合文档成员身份信息和自动评估指标,从而在固定标注预算下获得更高的准确性。在测试集上,相比于纯随机抽样,平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。
Apr, 2022