KoCoSa:韩语上下文感知讽刺检测数据集
本文使用 RoBERTa_large 对 Twitter 和 Reddit 数据集进行讽刺检测,并通过使用三种不同类型的输入来确定上下文在提高性能方面的重要性。我们表明,我们提出的架构在两个数据集中都具有竞争力,并且在 Reddit 数据集中增加分隔符可以提高 F1 分数的 5.13%。
Jun, 2020
本研究提出了专门用于孟加拉文文本数据的 Sarcasm 数据集(BanglaSarc),该数据集包含来自各种在线社交平台的 5112 个评论 / 状态和内容,将有助于研究识别讽刺和检测孟加拉语表达式等领域。
Sep, 2022
本文研究了文本挖掘中的讽刺检测,特别关注作者意图和读者解读的区别,介绍了作者直接标注的 iSarcasm 数据集,并指出现有方法在捕捉作者意图上的局限性,提出未来自然语言处理研究需要发展更优秀的检测方法。
Nov, 2019
本研究旨在对英语计算讽刺研究的最新进展和趋势进行简要概述,包括使用非监督预训练转换器在多模态环境中进行讽刺检测以及整合上下文以识别讽刺。我们介绍与讽刺相关的数据集、方法、趋势、问题、挑战和任务,提供针对讽刺的特征和其提取方法的汇总表,以及各种方法的性能分析,这些都可以帮助相关领域的研究人员了解讽刺检测中的最新技术实践。
Sep, 2022
本文提出一种模型,使用预训练的转换器和 CNN 捕捉上下文特征,用于捕捉蕴含在讽刺中的不一致性,并在社交网络平台和在线媒体的四个数据集上优于以前的最新成果。
Nov, 2022
该论文介绍了自注释 Reddit 语料库(SARC),该语料库为讽刺研究以及训练和评估讽刺检测系统提供了大量的数据。每个陈述还被作者自行注释,并配有用户、主题和对话上下文。通过构建基准测试和评估基线方法,我们对该语料库进行了准确度评估。
Apr, 2017
本文介绍了 UTNLP 团队在 SemEval-2022 共享任务 6 中进行讽刺性评论检测的方法和结果,对比了不同模型和数据增强方法的效果,最后使用 RoBERTa 和数据突变增强的方法取得了最佳结果。
Apr, 2022
本文提出了一种基于层次结构的检测方法,通过多头交叉注意力机制和图神经网络同时探索文本和图像之间的原子级一致性和组成级一致性,利用丰富的外部知识资源进行讽刺检测,评估结果表明该模型优于现有的技术。
Oct, 2022
对四个具有不同讽刺特征的讽刺数据集进行精调的讽刺检测模型的鲁棒性进行了测试,结果发现使用第三方标签进行精调的模型在内部数据集预测中表现更好,而大多数模型在跨数据集预测中无法很好地进行泛化,暗示一个数据集类型无法代表不同风格和领域的所有种类的讽刺。与现有数据集相比,本研究发布的新数据集上精调的模型在与其他数据集的泛化性能上表现最好。通过手动检查数据集和事后分析,我们发现泛化困难的原因在于讽刺实际上存在不同的领域和风格。我们认为未来的讽刺研究应考虑讽刺的广泛范围。
Apr, 2024