ACLApr, 2024

人机协同的合成文本数据审查与溯源跟踪

TL;DR使用数据增强技术生成的合成文本及其相应的标签分析是缓慢且繁重的任务。为了消除具有错误标签的文本,我们开发了一种名为 INSPECTOR 的人机交互数据检查技术,结合了数据溯源技术与辅助标注的优势。INSPECTOR 允许用户根据原始文本的转换溯源或语言特征溯源将相关文本分组,并计算近似数据质量的指标,将每个文本的标签与大型语言模型的预测进行比较。在用户研究中,使用 INSPECTOR 的情感分析任务中,能够将具有正确标签的文本数量提高 3 倍,在仇恨言论检测任务中,能够提高 4 倍。参与者认为将合成文本按其共同的转换分组是最有用的技术,而按共同语言特征分组则认为无助于检查工作。与先前研究相反,我们的研究发现没有一种单一技术能够完全取代人工检查工作的需要,这验证了 INSPECTOR 设计将数据溯源分析和辅助标注相结合以减少人工检查工作的目标。