ACLApr, 2021

吹哨人:一个包含常识和世界知识的汉语数据集用于方言理解

TL;DR本文提出大规模、多样化的中文数据集,用于从计算的语言学角度创建和理解非正式语言。同时,我们确立了一个任务以及提供了相应数据、数量和质量分析。实验表明,这一任务需要深度语言理解、常识和世界知识,并可以成为预训练语言模型的良好测试基准,从而帮助模型在其他任务上表现更好。