越南叙事文本的虐待词组检测

Dec, 2023

Abusive Span Detection for Vietnamese Narrative Texts

Nhu-Thanh Nguyen, Khoa Thi-Kim Phan, Duc-Vu Nguyen, Ngan Luu-Thuy Nguyen

TL;DR在越南这一领域中，滥用在各种形式上，包括身体、心理、言语、性、财务和文化上，对心理健康产生负面影响。然而，在应用自然语言处理（NLP）方面，关于这个领域的研究还非常有限。因此，我们的目标是通过构建一个越南人标注的数据集，来检测越南叙事文本中的滥用内容。我们从越南受欢迎的在线报纸 VnExpress 中获取了这些文本，读者经常分享包含滥用内容的故事。在数据集创建过程中，识别和分类这些文本中的滥用内容面临着重大挑战，但也激发了我们的研究兴趣。我们尝试了轻量级的基准模型，通过冻结 PhoBERT 和 XLM-RoBERTa，使用它们的隐藏状态在 BiLSTM 中评估数据集的复杂性。根据我们的实验结果，PhoBERT 在标记和未标记的滥用内容检测任务中表现优于其他模型。这些结果表明，它在未来有改进的潜力。

Abstract

abuse in its various forms, including physical, psychological, verbal, sexual, financial, and cultural, has a negative impact on mental health. However, there are limited studies on applying natural language processing<

abuse natural language processing vietnamese dataset abusive content

发现论文，激发创造

ViHOS: 越南语仇恨言论跨度检测

概述：该研究提出了 ViHOS 数据集，它是第一个包含 11k 条评论和 26k 个含有仇恨和攻击性言论的人工标注的数据集。通过使用各种最先进的模型进行实验，我们发现 XLM-R $_{Large}$ 在单个范围检测和所有范围检测方面取得了最佳的 F1 分数，而 PhoBERT $_{Large}$ 在多个范围检测方面获得了最高的分数。该研究的目的在于帮助解决社交网络平台上存在的恶意和攻击性言论的问题。

Jan, 2023

越南语中基于方面的情感分析的跨度检测

本研究提出了一种基于 BiLSTM-CRF 的新颖系统，利用收集的词汇和语境特征，针对基于方面的情感分析中的波及用户观点的判定问题，利用越南语语言数据集进行评估，最终实现了 62.76% 的 F1 分数的最优解。

Oct, 2021

自动文本规范化用于仇恨言论检测

社交媒体数据是研究的宝贵资源，非标准词汇是对 NLP 工具运行的一种障碍。我们采用了一种简单的序列到序列模型，通过文本规范化的实验结果显示准确率接近 70%，同时也提升了 2% 左右的仇恨言论检测任务的准确性，展示了提高复杂 NLP 任务性能的潜力。

Nov, 2023

利用 PhoBERT-CNN 和社交媒体流数据检测越南语仇恨和攻击

本研究利用先进的预处理技术和多种实验验证，提出一种基于 PhoBERT 和 Text-CNN 模型的 HSD 模型来检测越南社交媒体上的仇恨言论，在应对数据不平衡的同时提高了分类模型的性能，通过实验结果验证，该模型在 ViHSD 和 HSD-VLSP 等数据集上获得了更高的 F1 得分，并且进一步构建了一种实用的流媒体应用程序以演示其实用性。

Jun, 2022

越南开放式社交媒体评论的建设性和有毒言论检测

在本文中，我们使用越南自然语言处理中的 PhoBERT 等最先进的迁移学习模型，提出了一个用于建设性和有毒言论检测的系统，并使用 10000 个人工注释的评论创建了一个名为 UIT-ViCTSD 的数据集，从而解决了社交媒体评论质量低下和有害性问题。

Mar, 2021

越南 AI 生成文本检测

近年来，大型语言模型（LLMs）已经融入我们的日常生活，成为完成任务的宝贵助手。本研究提出了一个名为 ViDetect 的数据集，包含 6800 个样本的越南语文章，其中 3400 个样本由人类撰写，其余由 LLMs 生成，旨在检测 AI 生成的文本。我们使用 ViT5、BartPho、PhoBERT、mDeberta V3 和 mBERT 等最先进的方法进行评估。这些结果不仅对于检测 AI 生成的文本的研究的日益增长的基础做出了贡献，还展示了不同方法在越南语境下的适应性和有效性。该研究为未来的 AI 生成文本检测的进展奠定了基础，并为自然语言处理领域的研究人员提供了宝贵的见解。

May, 2024

打破沉默：检测和减少印度在线空间中的性别虐待（印地语、泰米尔语和印度英语）

在线性别基础骚扰是限制女性和边缘性别在数字空间中自由表达和参与的普遍问题。检测此类滥用内容可以使平台遏制这一威胁。我们参加了 ICON2023 举办的 Indic 语言中的性别虐待检测任务，该任务为构建分类器以识别带有性别偏见的滥用提供了英语、印地语和泰米尔语的注释 Twitter 帖子的数据集。我们的团队 CNLP-NITS-PP 开发了结合 CNN 和 BiLSTM 网络的集成方法，可以有效地建模文本数据中的语义和顺序模式。CNN 通过其应用于嵌入式输入文本的卷积滤波器捕捉到暴力语言的局部特征。为了确定基于上下文的冒犯性，BiLSTM 分析这个序列中单词和短语之间的依赖关系。我们为每种语言数据集训练了使用 FastText 和 GloVe 词嵌入的多种变体，其中包括超过 7600 个众包注释，涵盖了明确的滥用、针对少数群体的攻击和一般违规事项的标签。验证分数显示出强大的性能，特别是对于英语为 0.84。我们的实验证明了如何通过自定义嵌入和模型超参数来提高检测能力。该提议的架构在比赛中排名第一，证明其处理具有代码切换的现实世界嘈杂文本的能力。随着平台力图应对面临 Indic 语言互联网用户的网络骚扰，这种技术有着广阔的前景。我们的代码位于此 https URL。

Apr, 2024

情感和辱骂语言检测的联合模型

本文探讨了自然语言处理在网络通信中检测恶意行为的方法，并提出了一种以情感状态为特征的多任务学习模型，证明在检测恶意行为方面效果显著。

May, 2020

利用受害者的仇恨进行越南社交媒体文本中的仇恨言论检测

社交媒体上激进内容的快速传播促使了对仇恨言论的检测任务的需求，本论文提供了一种构建用于针对性仇恨言论检测的系统的方法，并介绍了一个越南社交媒体文本的针对性仇恨言论检测数据集，并结合预训练语言模型与基于文本表征的 Bi-GRU-LSTM-CNN 模型建立了基线模型，最终提出了一种方法将该模型整合至在线流媒体系统，以在社交媒体上防止令人讨厌和冒犯性内容的实际应用。

Apr, 2024

滥用言论具有语境性，那么 NLP（自然语言处理）呢？语境在滥用言论注释和检测中的作用

本研究通过给出上下文，重新注释部分英文侮辱语言检测数据集，比较了基于上下文和不基于上下文两种数据集上三种分类算法的性能，发现基于上下文的分类更具挑战性，但也更类似于实际应用场景。

Mar, 2021