使用跨语言表示学习器进行多语言混合编码希望言论检测

ACLFeb, 2021

使用跨语言表示学习器进行多语言混合编码希望言论检测

NLP-CUET@LT-EDI-EACL2021: Multilingual Code-Mixed Hope Speech Detection using Cross-lingual Representation Learner

Eftekhar Hossain, Omar Sharif, Mohammed Moshiul Hoque

TL;DR本研究旨在利用机器学习、深度学习和转换器等自然语言处理技术，分别分析英语、泰米尔语和马拉雅拉姆语中社交媒体帖子或评论包含希望言论的可能性，并发现 XLM-Roberta 技术能够达到最佳的分析效果。

Abstract

In recent years, several systems have been developed to regulate the spread of negativity and eliminate aggressive, offensive or abusive contents from the online platforms. Nevertheless, a limited number of researches carried out to identify positive, encouraging and supportive contents. In this work, our goal is to identify whether a →

hope speech social media machine learning xlm-roberta natural language processing

发现论文，激发创造

使用印度化简和 Transformer 进行希望言论检测

本文介绍了使用上下文嵌入和预训练 transformer 模型的方法来检测 HopeEDI 数据集中的 Hope speech。实验表明，使用预训练 transformer 模型的方法在英语、泰米尔语和马拉雅拉姆语上均优于使用逻辑回归、随机森林、SVM 和 LSTM 的方法，F1 得分最高值达到了 0.93。

Feb, 2021

在社交媒体平台上的希望言论检测

本研究旨在通过机器学习方法对希望言论、不希望言论和中立言论分类，并在经过重新标记数据集后，通过传统机器模型与预训练模型的实验比较获得更高的准确率。

Nov, 2022

使用 Transformers 从多语代码混合文本中检测攻击性言论

本论文提出了一种多语言自动化系统，使用机器学习和转换器来从混合语言的数据中识别带有冒犯性的文本，并在 Tamil、Malayalam 和 Kannada 三种语言的数据集上进行了测试。结果表明，该系统在不同语言上表现出不同的最佳表现方法，得分最高的是 m-BERT（Kannada）和 XLM-R（Tamil 和 Malayalam），系统性能达到了一定的水平。

Feb, 2021

印度 - 雅利安语言中的仇恨言论和冒犯内容检测：基于 LSTM 和 Transformers 的对抗

该研究在五种不同语言中展开了对仇恨言论的广泛比较分析，使用多种预训练模型评估其在这些语言中识别仇恨言论的性能，并为多语言环境下构建强大的仇恨言论检测系统提供了有益的见解。

Dec, 2023

探索基于 Transformer 的模型以识别英语和印度雅利安语中的仇恨言论和攻击性内容

本篇论文探索了基于 Transformer 的多种机器学习模型，用于探测英语和印度 - 雅利安语中的仇恨言论和冒犯性内容，研究团队 “超级马里奥” 采用 mBERT、XLMR-large、XLMR-base 等多种模型，我们在 Code-Mixed 数据集排名第二（宏平均 F1：0.7107）、在印地语二分类中排名第二（宏平均 F1：0.7797）、在英语四分类中排名第四（宏平均 F1：0.8006），在英语二分类中排名第十二（宏平均 F1：0.6447）。

Nov, 2021

PolyHope: 基于推特的两级希望言论检测

本文介绍了一个用于分类 Twitter 推文的希望言论数据集，并提供了基于不同学习方法的多项基准测试以进行评估和分析。研究中发现，使用严格的注释过程并提供详细的注释指南可以提高数据集的质量。同时，使用上下文嵌入模型进行希望言论检测有更高的性能表现。

Oct, 2022

超越负面性：关于希望言论检测的重新分析和后续实验

研究旨在寻找计算效率更高、可比较 / 优于现有方法的希望言论检测方法，并公开我们的代码库。

May, 2023

基于 Transformer 深度学习的多语种仇恨言论分析与检测

使用基于 Transformer 模型的算法来检测社交媒体上的仇恨言论，无论语言如意大利语、英语、德语还是孟加拉语，该模型的检测准确率较现有基准和最先进模型提高，其成功率达到了 89%（孟加拉语）、91%（英语和德语）以及 77%（意大利语）

Jan, 2024

多语言仇恨言论检测的深度学习模型

本研究从 16 个数据来源的 9 种语言中进行大规模的多语言仇恨言论分析，发现在低资源设置下，使用 LASER 嵌入和逻辑回归的简单模型性能最佳，在高资源设置下，BERT 模型表现更好。对于零样本分类，意大利语和葡萄牙语取得了良好的效果。我们提出的框架可用作低资源语言的高效解决方案，并可作为未来多语言仇恨言论检测任务的良好基准。我们已公开了我们的代码和实验设置供其他研究人员使用。

Apr, 2020

LT-EDI-2024 平台上鉴别少资源语言中反对 LGBTQ + 仇恨语言的自动化检测

本文描述了我们开发的社交媒体评论中恐同 / 恐跨基不算法的系统，该系统是 LT-EDI-2024 共享任务的一部分。我们采用了基于 transformer 的方法，为十种语言条件（英语、西班牙语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、泰米尔语、土鲁语和泰卢固语）开发了多类别分类模型。我们在领域适应期间引入了合成和有机脚本切换语言数据的实例，以反映社交媒体语言中标记训练数据中所看到的语言现实。我们系统在古吉拉特语和泰卢固语中排名第二，其他语言条件的表现有所不同。结果表明，加入脚本切换等凌语言行为元素可以提高语言检测系统的性能，尤其是在资源匮乏的语言条件下。

Jan, 2024