Apr, 2023

MMT:一个印度多语言和多主题的社交媒体数据集

TL;DR本文介绍了一个从 Twitter 中收集的大规模、多语言和多主题数据集,包括印度情境下 13 个粗粒度和 63 个细粒度的主题,以及对其中一部分数据进行的注释,进而展示当前现有工具在语言识别和主题建模上面对的挑战和失败,以及为未来的相关研究提供了一个公开的、注释的数据集。