ACLJun, 2021

CONDA:一份用于游戏内毒性理解和检测的语境双注释数据集

TL;DR本文介绍 CONDA 数据集,它是一个包含了来自 1.9K 完成的 Dota 2 比赛聊天记录的 12K 个对话和 45K 个话语的数据集,用于进行游戏中毒性语言的检测和自然语言理解。同时提出了一种鲁棒的双语义级毒性框架,能够处理话语和单词级别的模式和上下文历史。评估了针对 CONDA 的强 NLU 模型,提供了不同意图类别和插槽类别的细粒度结果,并通过与其他毒性数据集的比较检查了本数据集中毒性的覆盖范围。