SemEval-2021 任务 5:使用命名实体识别和问答方法进行有害语段检测的 UIT-E10dot3
该研究探讨了基于 BERT 的模型在 SemEval-2021 毒性跨度检测任务中的性能,研究了多种模型,包括 Token 分类或跨度预测,最佳模型达到 F1 得分 0.6753,在基线模型上提高了 3%。
Feb, 2021
该论文描述了 Cisco 团队提出的用于发现英文文本中的有毒段落的系统,该系统主要采用了序列标注和依赖解析方法,并提供了其结果和模型表现的详细分析。
May, 2021
研究使用多深度 DistilBERT 模型来检测文本中的有毒片段,定量结果表明使用多个深度的嵌入可提高模型性能,并定性分析了最佳模型。
Apr, 2021
该研究描述了 Toxic Spans Detection 问题的解决方法,其中使用 BERToxic 系统,通过微调预训练的 BERT 模型来定位给定文本中的有害文本段,并利用附加后处理步骤来优化其性能。
Apr, 2021
本文描述了我们基于 BERT 神经架构和后处理方法的集成模型,在 SemEval-2021 任务 5 的毒性跨度检测中应用的系统。我们使用多种集成技术对多个预训练语言模型进行了评估,实现了相当大的改进,并在测试数据上获得了 67.55%的 F1 分数。
Apr, 2021
本文提出一种基于自注意力的双向门控循环单元(BiGRU),采用多嵌入表示的令牌结合 GPT-2,GloVe 和 RoBERTa 嵌入,有效地检测范围令牌。
Apr, 2021
我们通过将 NER 问题分成两个逻辑子任务来解决,即 Span Detection 和 Span Classification,进一步将两个子任务形式化为问答问题,使用两个较为简洁的模型针对每个子任务进行优化。与 OntoNotes5.0、WNUT17 和一个网络安全数据集的基准模型相比,我们的系统 SplitNER 表现出色,并且在 BioNLP13CG 数据集上取得了相当的性能,同时与 QA 基准模型相比,训练时间显著减少。我们的系统的有效性来自对 BERT 模型进行两次微调,分别用于 span detection 和 classification。该研究代码可在给定的 https URL 上找到。
Oct, 2023
该研究论文介绍了一种基于跨度的多任务实体 - 关系联合提取模型,通过多任务学习和位置信息的引入,有效地减轻了负样本对模型性能的负面影响,同时在广泛应用的公共数据集 CoNLL04、SciERC 和 ADE 上取得了令人称赞的 F1 得分。
Sep, 2023
本文探讨了检测有害文本段落时跨领域条件下的分布偏移现象,并评估了基于词汇库、原理提取和微调语言模型三种方法的效果,结果表明在跨领域条件下,采用通用的词汇库进行检测的方法效果最好。此外,该研究发现,(1) 基于原理提取的方法容易产生假阴性,(2) 对于本域情况,语言模型的表现最好,但是回溯的有害词汇比词汇库更少,且容易出现某些类型的假阳性,文章提出的代码公开可用。
Jun, 2023
本文提出了 Claim Span Identification (CSI) 任务并引入了名为 CURT 的大规模 Twitter 语料库,通过基于 RoBERTa 的适配器 DABERTa 进行实验来对其数据进行基准测试,并提供了细致的误差分析和消融研究来验证该模型的性能,并提供了全面的跨度注释指南以供公共使用。
Oct, 2022