该研究提出了一个基于深度神经网络的、用于自动检测讽刺的模型,其中利用了用户嵌入向量和词汇信号,避免繁琐的特征工程和数据爬取,经实验证明总体效果优于现有方法。
Jul, 2016
本文探讨在利用词向量进行讽刺检测时,通过加入语义相似性/不一致性的方法,对四种特征集进行了改进,发现无论使用哪种嵌入或将其附加到哪个原始特征集上,都能提高讽刺检测的性能,其中使用Word2Vec嵌入时,F分数提高了约4%,而依赖权重和Word2Vec嵌入相比,LSA和GloVe的效果不如后者。
Oct, 2016
该论文介绍了自注释Reddit语料库(SARC),该语料库为讽刺研究以及训练和评估讽刺检测系统提供了大量的数据。每个陈述还被作者自行注释,并配有用户、主题和对话上下文。通过构建基准测试和评估基线方法,我们对该语料库进行了准确度评估。
Apr, 2017
本研究提出了 CASCADE (a ContextuAl SarCasm DEtector) 用于在在线社交媒体讨论中,采用基于内容和上下文驱动的混合方法进行讽刺检测,能够提取讨论线程中的上下文信息,使用用户嵌入来编码用户的风格和个性特征,与卷积神经网络(CNN)等基于内容的特征提取器一起使用时,可显著提高 Reddit 语料库的分类性能。
May, 2018
使用机器学习和基于ELMO的字向量表征,可以在3个数据源派生的7个数据集上提供最先进的性能,以准确预测上下文相关和非文字化表述,如讽刺和嘲讽表达式。
Sep, 2018
本研究探讨了使用作者上下文对文本讽刺检测的影响,使用神经模型提取作者历史帖子的嵌入表示,并在两个tweet数据集上进行实验,一个是手动标注的讽刺数据集,另一个是基于标签的远程监督。我们在第二个数据集上实现了最先进的性能,但在手动标注的数据集上未能做到,表明基于远程监督捕捉的意图讽刺存在差异,与手动标注捕捉的感知讽刺不同。
Oct, 2019
本文研究了文本挖掘中的讽刺检测,特别关注作者意图和读者解读的区别,介绍了作者直接标注的iSarcasm 数据集,并指出现有方法在捕捉作者意图上的局限性,提出未来自然语言处理研究需要发展更优秀的检测方法。
Nov, 2019
我们提出了一个基于Transformer模型的讽刺检测模型,可以有效考虑上下文,达到更加准确的预测,其在Twitter和Reddit的数据集上表现出了3.1%和7.0%的提升,F1分别达到了79.0%和75.0%,成为了该共享任务36个参与者中表现最好的系统之一。
May, 2020
本文使用RoBERTa_large对Twitter和Reddit数据集进行讽刺检测,并通过使用三种不同类型的输入来确定上下文在提高性能方面的重要性。我们表明,我们提出的架构在两个数据集中都具有竞争力,并且在Reddit数据集中增加分隔符可以提高F1分数的5.13%。
Jun, 2020
使用先进的语言表示模型和上下文驱动模型,对Reddit语料库进行分析,评估其性能并找到理想的讽刺检测方法。
Oct, 2023