Dec, 2023

越南叙事文本的虐待词组检测

TL;DR在越南这一领域中,滥用在各种形式上,包括身体、心理、言语、性、财务和文化上,对心理健康产生负面影响。然而,在应用自然语言处理(NLP)方面,关于这个领域的研究还非常有限。因此,我们的目标是通过构建一个越南人标注的数据集,来检测越南叙事文本中的滥用内容。我们从越南受欢迎的在线报纸 VnExpress 中获取了这些文本,读者经常分享包含滥用内容的故事。在数据集创建过程中,识别和分类这些文本中的滥用内容面临着重大挑战,但也激发了我们的研究兴趣。我们尝试了轻量级的基准模型,通过冻结 PhoBERT 和 XLM-RoBERTa,使用它们的隐藏状态在 BiLSTM 中评估数据集的复杂性。根据我们的实验结果,PhoBERT 在标记和未标记的滥用内容检测任务中表现优于其他模型。这些结果表明,它在未来有改进的潜力。