SemEval-2021 任务 5：使用命名实体识别和问答方法进行有害语段检测的 UIT-E10dot3

ACLApr, 2021

SemEval-2021 任务 5：使用命名实体识别和问答方法进行有害语段检测的 UIT-E10dot3

UIT-E10dot3 at SemEval-2021 Task 5: Toxic Spans Detection with Named Entity Recognition and Question-Answering Approaches

PDF

Phu Gia Hoang, Luan Thanh Nguyen, Kiet Van Nguyen

TL;DR该研究通过命名实体识别和问答结合分析 SemEval-2021 的毒性评论任务，提高了评论毒性区分的准确性。

Abstract

The increment of toxic comments on online space is causing tremendous effects on other vulnerable users. For this reason, considerable efforts are made to deal with this, and →

toxic comments online space semeval-2021 named entity recognition question-answering

发现论文，激发创造

利用基于 BERT 的标记分类和跨度预测技术进行有毒跨度检测的 SemEval-2021 任务 5 的 NLRG

该研究探讨了基于 BERT 的模型在 SemEval-2021 毒性跨度检测任务中的性能，研究了多种模型，包括 Token 分类或跨度预测，最佳模型达到 F1 得分 0.6753，在基线模型上提高了 3%。

Feb, 2021

2021 年 SemEval 第 5 任务：毒性在哪里？：利用 Transformer 从在线评论中提取多个毒性段

该论文描述了 Cisco 团队提出的用于发现英文文本中的有毒段落的系统，该系统主要采用了序列标注和依赖解析方法，并提供了其结果和模型表现的详细分析。

May, 2021

HLE-UPC 在 SemEval-2021 任务 5 中的表现：用于检测有害语句的多层 DistilBERT

研究使用多深度 DistilBERT 模型来检测文本中的有毒片段，定量结果表明使用多个深度的嵌入可提高模型性能，并定性分析了最佳模型。

Apr, 2021

SemEval-2021 第 5 项任务：使用 BERToxic 进行仔细检测仇恨言论的孤松松树算法

该研究描述了 Toxic Spans Detection 问题的解决方法，其中使用 BERToxic 系统，通过微调预训练的 BERT 模型来定位给定文本中的有害文本段，并利用附加后处理步骤来优化其性能。

Apr, 2021

MIPT-NSU-UTMN 参加 SemEval-2021 第 5 项任务：使用预训练语言模型进行有毒片段检测的集成学习

本文描述了我们基于 BERT 神经架构和后处理方法的集成模型，在 SemEval-2021 任务 5 的毒性跨度检测中应用的系统。我们使用多种集成技术对多个预训练语言模型进行了评估，实现了相当大的改进，并在测试数据上获得了 67.55％的 F1 分数。

Apr, 2021

UoT-UWF-PartAI 参加 SemEval-2021 任务 5：基于自注意力的双向门控循环神经网络和多嵌入表示的毒性突出器

本文提出一种基于自注意力的双向门控循环单元（BiGRU），采用多嵌入表示的令牌结合 GPT-2，GloVe 和 RoBERTa 嵌入，有效地检测范围令牌。

Apr, 2021

Split-NER：基于两个问题 - 回答分类的命名实体识别

我们通过将 NER 问题分成两个逻辑子任务来解决，即 Span Detection 和 Span Classification，进一步将两个子任务形式化为问答问题，使用两个较为简洁的模型针对每个子任务进行优化。与 OntoNotes5.0、WNUT17 和一个网络安全数据集的基准模型相比，我们的系统 SplitNER 表现出色，并且在 BioNLP13CG 数据集上取得了相当的性能，同时与 QA 基准模型相比，训练时间显著减少。我们的系统的有效性来自对 BERT 模型进行两次微调，分别用于 span detection 和 classification。该研究代码可在给定的 https URL 上找到。

Oct, 2023

跨範疇聯合實體關係提取多任務學習中處理負樣本

该研究论文介绍了一种基于跨度的多任务实体 - 关系联合提取模型，通过多任务学习和位置信息的引入，有效地减轻了负样本对模型性能的负面影响，同时在广泛应用的公共数据集 CoNLL04、SciERC 和 ADE 上取得了令人称赞的 F1 得分。

Sep, 2023

跨领域有害文本片段检测

本文探讨了检测有害文本段落时跨领域条件下的分布偏移现象，并评估了基于词汇库、原理提取和微调语言模型三种方法的效果，结果表明在跨领域条件下，采用通用的词汇库进行检测的方法效果最好。此外，该研究发现，(1) 基于原理提取的方法容易产生假阴性，(2) 对于本域情况，语言模型的表现最好，但是回溯的有害词汇比词汇库更少，且容易出现某些类型的假阳性，文章提出的代码公开可用。

Jun, 2023

Twitter 上声明段落的自动识别：事实检查者的赋能

本文提出了 Claim Span Identification (CSI) 任务并引入了名为 CURT 的大规模 Twitter 语料库，通过基于 RoBERTa 的适配器 DABERTa 进行实验来对其数据进行基准测试，并提供了细致的误差分析和消融研究来验证该模型的性能，并提供了全面的跨度注释指南以供公共使用。

Oct, 2022