Nov, 2023

TACRED 关系分类数据集中的噪声:特征化与减少

TL;DR本文旨在探索基于模型的方法来表征 RE 数据集 TACRED 中噪声的主要原因,并识别潜在的噪声实例。通过分析预测结果和 SOTA 模型的性能,我们发现 TACRED 数据集中的噪声主要来自被标记为无关系的实例。针对第二个目标,我们探索了两种基于最近邻的策略来自动识别可能存在噪声的实例,进行剔除和重新注释。实验证据显示,基于这些策略进行的模型再训练可以显著提升性能。