Feb, 2023

野外文本分类:大规模长尾姓名标准化数据集

TL;DR本文研究机构名称的规范化问题,针对实际数据应用中存在的长尾分布情况,提出了一个包含超过 25k 类的长尾数据集 LoT-insts1,并进行了基于搜索方法和 Bert 模型的神经网络等多种方法的基准测试及提出了一种特殊的 Bert 模型,在 few-shot 和 zero-shot 测试集上表现更好。该数据集是自然长尾且包含许多训练数据,是第一个专注于长尾和开放式分类问题的自然语言数据集。