Jan, 2022

HashSet -- 一个用于Hashtag分割的数据集

TL;DR提出了一个新的散列标记数据集——HashSet数据集,包括1.9k手动标注数据集和3.3M弱监督数据集,并表明现有的数据集不能很好地反映真实散列标记的变化,HashSet数据集对于训练和评估散列标记模型提供了可供选择的散列标记集。