Jul, 2023

解决分类中的类别不平衡数据的检索式文本选择

TL;DR本文针对在文本分类中使用检索方法选择一组文本进行标注的问题进行了研究,主要挑战包括由于人力资源限制导致标注数量受限以及处理具有少量正样本的二元类别的严重类别不平衡。为了应对这些挑战,本文提出了利用 SHAP 构建 Elasticsearch 和语义搜索的质量查询集,以尝试识别出能帮助处理类别不平衡问题的最佳标注文本集。该方法在描述可能未来事件的线索文本集上进行了测试,并引入了一种有效的选择少量文本进行标注和构建高质量分类器的方法。我们将向量搜索、语义搜索和机器学习分类器相结合,提供了一个较好的解决方案。实验结果表明,在二元分类中改善了少数类别的 F1 分数。