Apr, 2023
MMT:一个印度多语言和多主题的社交媒体数据集
MMT: A Multilingual and Multi-Topic Indian Social Media Dataset
Dwip Dalal, Vivek Srivastava, Mayank Singh
TL;DR本文介绍了一个从 Twitter 中收集的大规模、多语言和多主题数据集,包括印度情境下 13 个粗粒度和 63 个细粒度的主题,以及对其中一部分数据进行的注释,进而展示当前现有工具在语言识别和主题建模上面对的挑战和失败,以及为未来的相关研究提供了一个公开的、注释的数据集。