ViHateT5:使用统一的文本转换器模型增强越南语中的仇恨言论检测
社交媒体上激进内容的快速传播促使了对仇恨言论的检测任务的需求,本论文提供了一种构建用于针对性仇恨言论检测的系统的方法,并介绍了一个越南社交媒体文本的针对性仇恨言论检测数据集,并结合预训练语言模型与基于文本表征的 Bi-GRU-LSTM-CNN 模型建立了基线模型,最终提出了一种方法将该模型整合至在线流媒体系统,以在社交媒体上防止令人讨厌和冒犯性内容的实际应用。
Apr, 2024
本研究利用先进的预处理技术和多种实验验证,提出一种基于 PhoBERT 和 Text-CNN 模型的 HSD 模型来检测越南社交媒体上的仇恨言论,在应对数据不平衡的同时提高了分类模型的性能,通过实验结果验证,该模型在 ViHSD 和 HSD-VLSP 等数据集上获得了更高的 F1 得分,并且进一步构建了一种实用的流媒体应用程序以演示其实用性。
Jun, 2022
本文介绍了 ViT5,这是一种使用预训练 Transformer-based encoder-decoder 模型为基础的越南语自然语言处理模型,可以在 Abstractive Text Summarization 和 Named Entity Recognition 等任务中实现出色的表现。
May, 2022
社交媒体上冒犯内容的普遍存在是公司和政府组织越来越关注的问题。本研究提出了第一个具有编码器 - 解码器结构的预训练模型,用于冒犯语言识别,并在两个大型冒犯语言识别数据集(SOLID 和 CCTK)上训练。研究结果表明,预训练的 T5 模型在多个英文基准测试中优于其他基于变压器的模型,在多语言场景中,多语言预训练模型在所有上述数据集上实现了新的最优表现。
Dec, 2023
本文介绍了首个用于越南社交媒体文本的单语言预训练语言模型 ViSoBERT,该模型使用 XLM-R 架构,在大规模高质量多样化的越南社交媒体文本语料库上进行预训练,并在越南社交媒体文本的情绪识别、仇恨言论检测、情感分析、垃圾评论检测和仇恨言论跨度检测等五个重要的自然语言下游任务中超越了之前最先进的模型。
Oct, 2023
使用基于 Transformer 模型的算法来检测社交媒体上的仇恨言论,无论语言如意大利语、英语、德语还是孟加拉语,该模型的检测准确率较现有基准和最先进模型提高,其成功率达到了 89%(孟加拉语)、91%(英语和德语)以及 77%(意大利语)
Jan, 2024
本研究使用 T5 架构及自回归模型对包含 5 个不同任务的 2 个数据集进行性能比较与错误分析,提出了一种新的数据增强方法以及训练方法并通过解释性人工智能算法提高了预测准确率。
Feb, 2022
概述:该研究提出了 ViHOS 数据集,它是第一个包含 11k 条评论和 26k 个含有仇恨和攻击性言论的人工标注的数据集。通过使用各种最先进的模型进行实验,我们发现 XLM-R $_{Large}$ 在单个范围检测和所有范围检测方面取得了最佳的 F1 分数,而 PhoBERT $_{Large}$ 在多个范围检测方面获得了最高的分数。该研究的目的在于帮助解决社交网络平台上存在的恶意和攻击性言论的问题。
Jan, 2023
该论文基于 Transformer 语言模型,研究了在社交媒体文本中检测和分类仇恨的问题,并将其固定为三类,同时证明了多语言训练模式的有效性和特定特征对体系结构分类表现的影响。
Jan, 2021
社交媒体数据是研究的宝贵资源,非标准词汇是对 NLP 工具运行的一种障碍。我们采用了一种简单的序列到序列模型,通过文本规范化的实验结果显示准确率接近 70%,同时也提升了 2% 左右的仇恨言论检测任务的准确性,展示了提高复杂 NLP 任务性能的潜力。
Nov, 2023