从 LDA 到 BiLSTM-CNN 的迁移学习,用于推特上的攻击性语言检测
本文介绍了我们在多语言环境下识别冒犯性语言的方法,使用数据增强策略,包括使用具有不同阈值的附加半监督标签和跨语言转移与数据选择,并提出了一个新的度量标准 Translation Embedding Distance,用于跨语言数据选择。我们还提出了各种预处理步骤和微调方法,定制社交媒体文本的预训练多语言 BERT(mBERT)来进行冒犯性语言识别,我们的多语言系统在 OffensEval 2020 上取得了有竞争力的结果。
Aug, 2020
本研究提出了一种使用无监督文本样式转换的新方法来解决在线社交媒体中的人身攻击问题,该方法利用合作分类器、注意力和循环一致性损失对非平行数据进行编码器 - 解码器的训练,并在 Twitter 和 Reddit 的数据上进行了实验,结果表明该方法在两项定量指标中优于最先进的文本样式转换系统,可产生可靠的非攻击性转换句子。
May, 2018
社交媒体中冒犯性语言的快速增长和快速演变加大了检测的复杂性,尤其突显了在不同语言中识别此类内容的挑战。该调查针对社交媒体中的冒犯性语言检测在跨语言场景中进行了系统全面的交叉语言转移学习(CLTL)技术探索。我们的研究作为首个综合概述,专注于该领域的跨语言情景。我们分析了 67 篇相关论文,并按多个维度对这些研究进行了分类,包括所使用的多语言数据集的特征,使用的跨语言资源以及具体实施的 CLTL 策略。根据 “要转移什么”,我们还总结了三种主要的 CLTL 转移方法:实例、特征和参数转移。此外,我们还对当前挑战和未来的研究机会进行了探讨。此外,我们还在线提供了调查资源,包括两个全面的表格,其中提供了审查文献中使用的多语言数据集和 CLTL 方法的可访问参考。
Jan, 2024
本文介绍了使用 SyLSTM 来检测 Twitter 上的冒犯性言论,同时检测冒犯的类型和目标的新方法,该方法在深度学习体系结构中将句子的句法特征和语义特征相结合,通过图形卷积网络进行集成。结果表明,该方法在参数数量方面比最先进的 BERT 模型有数量级的优势。
May, 2022
本文介绍了一种机器学习和自然语言处理模型,通过自动识别网页文本中的仇恨言论以及利用迁移学习技术构建了一个识别仇恨言论的表示方法,并开发了一个可视化工具用于多个数据集的简要分析。
Jun, 2019
本研究提出了一种基于 BERT 和 Transfer Learning 的新型方案,以捕获社交媒体内容中的仇恨语境,并证明该方案能有效解决标注数据不足和存在偏差的问题,使得模型性能得到提升。
Oct, 2019
本研究旨在研究利用来自不同文化背景(尤其是韩国和英国)的数据进行传递学习对汉语攻击性语言检测的影响,并发现考虑文化特定的偏见会对语言模型的可传递性产生负面影响,而在多元文化的数据上训练的语言模型对汉语攻击性语言检测的不同特征敏感。研究表明,在有限的资源下,少样本学习情况下进行非英语攻击性语言检测有着良好的前景,并突显了跨文化传递学习在改善攻击性语言检测和促进包容性数字空间方面的重要性。
Mar, 2023
该论文提出了一种在社交媒体上识别仇恨内容的检测方案,并使用带有用户相关信息的各种特征以及来自文本内容的词频向量输入到一组循环神经网络分类器中,经实验证明该方法的有效性不仅可以成功区分仇恨言论和正常文本,而且分类的准确性也高于现有的最先进算法。
Jan, 2018
本论文提出了一种多语言自动化系统,使用机器学习和转换器来从混合语言的数据中识别带有冒犯性的文本,并在 Tamil、Malayalam 和 Kannada 三种语言的数据集上进行了测试。结果表明,该系统在不同语言上表现出不同的最佳表现方法,得分最高的是 m-BERT(Kannada)和 XLM-R(Tamil 和 Malayalam),系统性能达到了一定的水平。
Feb, 2021
使用卷积神经网络与长短时记忆网络,我们成功实现了最先进的 Twitter 情感分类器,通过海量无标注数据来预训练词向量,然后使用少量无标注数据通过远程监督来微调嵌入向量,最终在 SemEval-2017 Twitter 数据集上对 CNN 和 LSTM 进行了再次微调,使用了集成学习方法,我们在所有五个英文子任务中均排名第一。
Apr, 2017