面向敌意检测的任务自适应 Transformer 预训练
研究采用基于 mBERT 的神经网络技术,对资源受限的印地语社交媒体上的言论进行多标签分类,结果表明该模型的绩效超过了现有的基准模型,成为了印地语言领域检测敌意的最佳模型。
Jan, 2021
该文章研究了在 TAPT 过程中只训练 BERT 模型的嵌入层对模型性能的影响,并提出了一种简单的方法来使 BERT 模型在中间步骤更加高效,该方法是培训 BERT 模型的嵌入层,可以适应目标领域的词汇并达到可比较的性能。
Sep, 2022
本篇文章提出了一种基于转移学习的方法,使用专注力预训练模型进行细分任务分类,将社交媒体文章分类为敌对与非敌对,并进一步分析其情感类型:仇恨、虚假、诽谤和冒犯。这种方法在印第语文本数据上进行 fine-tuned,并在 CONSTRAINT-2021 共享任务中表现出色。
Jan, 2021
该论文基于 Transformer 语言模型,研究了在社交媒体文本中检测和分类仇恨的问题,并将其固定为三类,同时证明了多语言训练模式的有效性和特定特征对体系结构分类表现的影响。
Jan, 2021
本文介绍了 MIDAS-IIITD 团队针对 HASOC 2021 二号子任务提出的系统,用于检测推特上混合使用印地语和英语的谈话中的仇恨言论。我们采用神经网络方法,并利用 transformer 的跨语言嵌入来进行低资源语录下的贴性言论分类,其中最佳表现的系统 [(Indic-BERT, XLM-RoBERTa, 和 Multilingual BERT) 的难度投票集成方法,Macro F1 得分达到 0.7253,排名第一。
Dec, 2021
本文介绍了 AAAI-2021 CONSTRAINT 共享任务中开发的系统,包括在英语中检测 COVID19 虚假新闻和在印地语中检测敌对帖子。该研究使用 SVM,CNN,BiLSTM 和 CNN+BiLSTM 等技术进行分类任务,结果表明 SVM 在使用 tf-idf 特征方面在 task-A 测试集上实现了最高的 94.39%加权 $f_1$ 分数。标签功率集 SVM 使用 n-gram 特征在 task-B 测试集上获得了 86.03%的粗分类和 50.98%的细分类 $f_1$ 分数。
Jan, 2021
本文研究了针对原本有恶意情绪的文本进行预训练是否为识别恶意言论最佳的预训练方法,结果表明从目标领域的非恶意文本进行预训练可以提供类似或更好的结果,同时介绍了第一批公开开放的印度语 Hindi 和 Marathi 的基于 BERT 的分类模型 HindTweetBERT 和 MahaTweetBERT 。
Oct, 2022
本文研究几种半监督学习方法提高自然语言理解任务的性能,证明了 Task-adaptive pre-training 和 Self-training 可以通过 TFS protocol 结合使用,使学习所得的表示更加有效,进而在情感分类、语义匹配、命名实体识别和对话槽位分类等多个数据集上获得了显著的提升,在半监督设置下获得了强大的加法收益。经验证明,TFS protocol 可以作为未来 NLP 研究的一个重要的半监督学习基线。
Sep, 2021
社交媒体上冒犯内容的普遍存在是公司和政府组织越来越关注的问题。本研究提出了第一个具有编码器 - 解码器结构的预训练模型,用于冒犯语言识别,并在两个大型冒犯语言识别数据集(SOLID 和 CCTK)上训练。研究结果表明,预训练的 T5 模型在多个英文基准测试中优于其他基于变压器的模型,在多语言场景中,多语言预训练模型在所有上述数据集上实现了新的最优表现。
Dec, 2023