ActiveAED: 人在循环中改善注释错误检测
本研究发现,人工注释数据的质量与展示给注释者的数据顺序有着密切关系,通过优化展示顺序和提出一个基于主动学习的算法,可以有效提高在实时社交媒体分析中的数据准确性。此举不仅有利于机器学习算法的提高,也有助于发现人的学习偏差和潜在偏见。
Jul, 2019
本文重新实现并评估了 18 种检测可能存在的注释错误的方法,并在 9 个英文数据集上进行了评估,同时提供了评估协议和实现的开源软件包,以促进未来的研究和再现性。
Jun, 2022
提出 Active PETs 方法,利用多种语言模型的 Pattern Exploiting Training 模型的集成来主动选择未标记数据作为标注候选数据。在使用六个不同的预训练语言模型和两个技术事实验证数据集的 few-shot 数据选择上,使用 Active PETs 显示持续改进基线方法,并通过 Active PETs-o 取得更进一步的提高。该方法能够有效选择要标记的实例,即在未标记数据充足但标记资源有限的情况下,使得 few-shot 辩称验证性能持续提高。
Aug, 2022
本文介绍了一种采用人类辅助学习的主动学习框架,以识别更有可能包含注释错误的数据样本进行重新注释,从而显著提高特定实体类型的F1分数。该方法只需对整个数据集的约6%的训练实例进行重新注释即可取得良好效果。
Nov, 2022
本文研究了如何使用最先进的神经语言模型使人工创作的文本过渡为文本生成,并且展示了该任务上的众议员的技能差异。通过比较多种变量的影响,我们收集了RoFT数据集,以鼓励未来在人工检测和评估生成的文本方面进行更多的研究。
Dec, 2022
在这项研究中,我们提出了一个新的AED基准测试:Donkii,它包含了三个经过专家和半自动方法注释的指导调整数据集。我们发现这三个数据集中包含明显的错误,有时直接传播到指导调整的LLMs中。我们提出了四个适用于生成设置的AED基准,并在新引入的数据集上进行了全面评估。我们的结果表明选择正确的AED方法和模型大小确实至关重要,从而得出了实际建议。为了获得更多见解,我们提供了第一个案例研究,以检查指导调整数据集的质量对下游性能的影响。
Sep, 2023
采用自动标注工具ERRANT,使用日本大学生写作样本对最先进的序列标记语法错误检测和纠正模型(SeqTagger)进行了性能评估。结果表明该模型在错误检测方面显示出高精度但也相对保守,主题分析发现冠词和介词是主要错误类型。
Feb, 2024
人类标签变异与注释错误是NLP基准测试中普遍存在的问题,现有研究通常将其孤立研究。本论文提出了一种系统的方法和一个新的数据集VariErr,着重研究英语NLI任务中的错误与变异。通过评估各种自动错误检测方法和GPT模型在发现错误和人类标签变异方面的效果,我们发现目前的自动错误检测方法明显不如GPT模型和人类。虽然GPT-4是最好的系统,但仍然没有达到人类的表现水平。我们的方法不仅适用于NLI,也为将来研究错误与合理变异提供了丰富的研究基础,从而可以获得更好、更可靠的NLP系统。
Mar, 2024
利用主观自然语言处理任务进行准确的人类判断的关键是在注释过程中纳入广泛的视角。引入了注释者中心主动学习策略(ACAL),结合数据采样和注释者选择策略,旨在高效地近似获取人类判断的全面多样性,并使用注释者中心度量评估模型性能。对于七个主观自然语言处理任务进行了多种注释者选择策略的实验,同时采用了传统和新颖的以人为中心的评估指标。结果表明,ACAL提高了数据效率并在注释者中心度量评估中表现出色,但其成功仍取决于足够大而多样的注释者样本池的可用性。
Apr, 2024
Araida是一种基于类比推理的方法,可以提高交互式数据注释的自动注释准确性,并减少人工校正的需求,通过动态协调注释模型和最近邻(KNN)模型,显著减少人工校正劳动力。
May, 2024