ViHateT5：使用统一的文本转换器模型增强越南语中的仇恨言论检测

ACLMay, 2024

ViHateT5：使用统一的文本转换器模型增强越南语中的仇恨言论检测

ViHateT5: Enhancing Hate Speech Detection in Vietnamese With A Unified Text-to-Text Transformer Model

Luan Thanh Nguyen

TL;DR我们引入了基于 T5 架构的 ViHateT5 模型，该模型在我们提出的大规模领域特定数据集 VOZ-HSD 上进行了预训练，通过利用文本到文本架构的优势，ViHateT5 可以使用统一的模型处理多个任务，并在越南语的所有标准 HSD 基准测试中实现最先进的性能。

Abstract

Recent advancements in hate speech detection (HSD) in vietnamese have made significant progress, primarily attributed to the emergence of transformer-based →

hate speech detection vietnamese pre-trained language models vihatet5 voz-hsd dataset

发现论文，激发创造

利用受害者的仇恨进行越南社交媒体文本中的仇恨言论检测

社交媒体上激进内容的快速传播促使了对仇恨言论的检测任务的需求，本论文提供了一种构建用于针对性仇恨言论检测的系统的方法，并介绍了一个越南社交媒体文本的针对性仇恨言论检测数据集，并结合预训练语言模型与基于文本表征的 Bi-GRU-LSTM-CNN 模型建立了基线模型，最终提出了一种方法将该模型整合至在线流媒体系统，以在社交媒体上防止令人讨厌和冒犯性内容的实际应用。

Apr, 2024

利用 PhoBERT-CNN 和社交媒体流数据检测越南语仇恨和攻击

本研究利用先进的预处理技术和多种实验验证，提出一种基于 PhoBERT 和 Text-CNN 模型的 HSD 模型来检测越南社交媒体上的仇恨言论，在应对数据不平衡的同时提高了分类模型的性能，通过实验结果验证，该模型在 ViHSD 和 HSD-VLSP 等数据集上获得了更高的 F1 得分，并且进一步构建了一种实用的流媒体应用程序以演示其实用性。

Jun, 2022

ViT5: 预训练的文本到文本 Transformer 模型用于越南语生成

本文介绍了 ViT5，这是一种使用预训练 Transformer-based encoder-decoder 模型为基础的越南语自然语言处理模型，可以在 Abstractive Text Summarization 和 Named Entity Recognition 等任务中实现出色的表现。

May, 2022

多语言冒犯性语言识别的文本对文本模型

社交媒体上冒犯内容的普遍存在是公司和政府组织越来越关注的问题。本研究提出了第一个具有编码器 - 解码器结构的预训练模型，用于冒犯语言识别，并在两个大型冒犯语言识别数据集（SOLID 和 CCTK）上训练。研究结果表明，预训练的 T5 模型在多个英文基准测试中优于其他基于变压器的模型，在多语言场景中，多语言预训练模型在所有上述数据集上实现了新的最优表现。

Dec, 2023

ViSoBERT：用于越南社交媒体文本处理的预训练语言模型

本文介绍了首个用于越南社交媒体文本的单语言预训练语言模型 ViSoBERT，该模型使用 XLM-R 架构，在大规模高质量多样化的越南社交媒体文本语料库上进行预训练，并在越南社交媒体文本的情绪识别、仇恨言论检测、情感分析、垃圾评论检测和仇恨言论跨度检测等五个重要的自然语言下游任务中超越了之前最先进的模型。

Oct, 2023

基于 Transformer 深度学习的多语种仇恨言论分析与检测

使用基于 Transformer 模型的算法来检测社交媒体上的仇恨言论，无论语言如意大利语、英语、德语还是孟加拉语，该模型的检测准确率较现有基准和最先进模型提高，其成功率达到了 89%（孟加拉语）、91%（英语和德语）以及 77%（意大利语）

Jan, 2024

HaT5: 使用文本转换转换器进行仇恨语言识别

本研究使用 T5 架构及自回归模型对包含 5 个不同任务的 2 个数据集进行性能比较与错误分析，提出了一种新的数据增强方法以及训练方法并通过解释性人工智能算法提高了预测准确率。

Feb, 2022

ViHOS: 越南语仇恨言论跨度检测

概述：该研究提出了 ViHOS 数据集，它是第一个包含 11k 条评论和 26k 个含有仇恨和攻击性言论的人工标注的数据集。通过使用各种最先进的模型进行实验，我们发现 XLM-R $_{Large}$ 在单个范围检测和所有范围检测方面取得了最佳的 F1 分数，而 PhoBERT $_{Large}$ 在多个范围检测方面获得了最高的分数。该研究的目的在于帮助解决社交网络平台上存在的恶意和攻击性言论的问题。

Jan, 2023

利用多语言转换器来进行仇恨言论检测

该论文基于 Transformer 语言模型，研究了在社交媒体文本中检测和分类仇恨的问题，并将其固定为三类，同时证明了多语言训练模式的有效性和特定特征对体系结构分类表现的影响。

Jan, 2021

自动文本规范化用于仇恨言论检测

社交媒体数据是研究的宝贵资源，非标准词汇是对 NLP 工具运行的一种障碍。我们采用了一种简单的序列到序列模型，通过文本规范化的实验结果显示准确率接近 70%，同时也提升了 2% 左右的仇恨言论检测任务的准确性，展示了提高复杂 NLP 任务性能的潜力。

Nov, 2023