表示社交媒体用户以用于讽刺检测

Aug, 2018

表示社交媒体用户以用于讽刺检测

Representing Social Media Users for Sarcasm Detection

Y. Alex Kolchinski, Christopher Potts

TL;DR本文探讨两种在文本讽刺检测中代表作者的方法：一种通过直接表示作者讽刺的倾向来实现的贝叶斯方法，以及一种可以学习作者与文本之间交互的密集嵌入方法。在 Reddit 评论的 SARC 数据集上，我们展示了使用这些方法来增强双向 RNN 的性能；贝叶斯方法在同质性上下文中足够，而密集嵌入方法在更多元化的上下文中表现出了其价值。

Abstract

We explore two methods for representing authors in the context of textual sarcasm detection: a bayesian approach that directly represents authors' propensities to be sarcastic, and a →

发现论文，激发创造

利用用户嵌入模拟上下文进行社交媒体中的讽刺检测

该研究提出了一个基于深度神经网络的、用于自动检测讽刺的模型，其中利用了用户嵌入向量和词汇信号，避免繁琐的特征工程和数据爬取，经实验证明总体效果优于现有方法。

Jul, 2016

基于词嵌入的特征对讽刺检测有用吗？

本文探讨在利用词向量进行讽刺检测时，通过加入语义相似性/不一致性的方法，对四种特征集进行了改进，发现无论使用哪种嵌入或将其附加到哪个原始特征集上，都能提高讽刺检测的性能，其中使用Word2Vec嵌入时，F分数提高了约4％，而依赖权重和Word2Vec嵌入相比，LSA和GloVe的效果不如后者。

Oct, 2016

用于讽刺的大型自注释语料库

该论文介绍了自注释Reddit语料库（SARC），该语料库为讽刺研究以及训练和评估讽刺检测系统提供了大量的数据。每个陈述还被作者自行注释，并配有用户、主题和对话上下文。通过构建基准测试和评估基线方法，我们对该语料库进行了准确度评估。

Apr, 2017

CASCADE：在线讨论论坛中的语境讽刺识别

本研究提出了 CASCADE (a ContextuAl SarCasm DEtector) 用于在在线社交媒体讨论中，采用基于内容和上下文驱动的混合方法进行讽刺检测，能够提取讨论线程中的上下文信息，使用用户嵌入来编码用户的风格和个性特征，与卷积神经网络（CNN）等基于内容的特征提取器一起使用时，可显著提高 Reddit 语料库的分类性能。

May, 2018

深层上下文化词表示用于检测讽刺和反语

使用机器学习和基于ELMO的字向量表征，可以在3个数据源派生的7个数据集上提供最先进的性能，以准确预测上下文相关和非文字化表述，如讽刺和嘲讽表达式。

Sep, 2018

探究作者背景的作用在检测意图与感知讽刺中

本研究探讨了使用作者上下文对文本讽刺检测的影响，使用神经模型提取作者历史帖子的嵌入表示，并在两个tweet数据集上进行实验，一个是手动标注的讽刺数据集，另一个是基于标签的远程监督。我们在第二个数据集上实现了最先进的性能，但在手动标注的数据集上未能做到，表明基于远程监督捕捉的意图讽刺存在差异，与手动标注捕捉的感知讽刺不同。

Oct, 2019

iSarcasm: 旨在表达讽刺的数据集

本文研究了文本挖掘中的讽刺检测，特别关注作者意图和读者解读的区别，介绍了作者直接标注的iSarcasm 数据集，并指出现有方法在捕捉作者意图上的局限性，提出未来自然语言处理研究需要发展更优秀的检测方法。

Nov, 2019

基于Transformer的社交媒体对话线程中上下文感知的讽刺检测

我们提出了一个基于Transformer模型的讽刺检测模型，可以有效考虑上下文，达到更加准确的预测，其在Twitter和Reddit的数据集上表现出了3.1%和7.0%的提升，F1分别达到了79.0%和75.0%，成为了该共享任务36个参与者中表现最好的系统之一。

May, 2020

利用上下文分隔符在在线话语中检测讽刺

本文使用RoBERTa_large对Twitter和Reddit数据集进行讽刺检测，并通过使用三种不同类型的输入来确定上下文在提高性能方面的重要性。我们表明，我们提出的架构在两个数据集中都具有竞争力，并且在Reddit数据集中增加分隔符可以提高F1分数的5.13％。

Jun, 2020

对最先进的大型语言模型在讽刺检测方面的评估

使用先进的语言表示模型和上下文驱动模型，对Reddit语料库进行分析，评估其性能并找到理想的讽刺检测方法。

Oct, 2023