使用BERT和GloVe嵌入技术检测推文中的讽刺
该研究提出了一个基于深度神经网络的、用于自动检测讽刺的模型,其中利用了用户嵌入向量和词汇信号,避免繁琐的特征工程和数据爬取,经实验证明总体效果优于现有方法。
Jul, 2016
本文探讨在利用词向量进行讽刺检测时,通过加入语义相似性/不一致性的方法,对四种特征集进行了改进,发现无论使用哪种嵌入或将其附加到哪个原始特征集上,都能提高讽刺检测的性能,其中使用Word2Vec嵌入时,F分数提高了约4%,而依赖权重和Word2Vec嵌入相比,LSA和GloVe的效果不如后者。
Oct, 2016
本研究基于主题模型提出了一种简单的讽刺检测模型,能够预测带有讽刺情感的话题,并且能够发现具有情感的单词组合,通过在推特数据集上进行实验,我们的模型能比之前的基于统计分类器的研究提高25%的识别率。
Nov, 2016
通过英-印混合码数据集,我们开发了一个基于随机森林分类器并进行了10折交叉验证的基线监督分类系统,该系统可以检测到社交媒体上的文字中的反讽,并标记每个标记的语言标签。该系统平均得分为78.4%。
May, 2018
本文探讨两种在文本讽刺检测中代表作者的方法:一种通过直接表示作者讽刺的倾向来实现的贝叶斯方法,以及一种可以学习作者与文本之间交互的密集嵌入方法。在 Reddit 评论的 SARC 数据集上,我们展示了使用这些方法来增强双向 RNN 的性能;贝叶斯方法在同质性上下文中足够,而密集嵌入方法在更多元化的上下文中表现出了其价值。
Aug, 2018
本文使用RoBERTa_large对Twitter和Reddit数据集进行讽刺检测,并通过使用三种不同类型的输入来确定上下文在提高性能方面的重要性。我们表明,我们提出的架构在两个数据集中都具有竞争力,并且在Reddit数据集中增加分隔符可以提高F1分数的5.13%。
Jun, 2020
本研究探讨了自动检测讽刺的多种方法,包括通过上下文、发布历史和机器学习模型识别,特别是深度学习方法对于使用具有诱导而不是离散特征的模型以及transformers创新的好处具有可观的推动作用。
Feb, 2022
本研究旨在对英语计算讽刺研究的最新进展和趋势进行简要概述, 包括使用非监督预训练转换器在多模态环境中进行讽刺检测以及整合上下文以识别讽刺。我们介绍与讽刺相关的数据集、方法、趋势、问题、挑战和任务,提供针对讽刺的特征和其提取方法的汇总表,以及各种方法的性能分析,这些都可以帮助相关领域的研究人员了解讽刺检测中的最新技术实践。
Sep, 2022
本文提出了一个基于BERT的系统,可以在Bangla sarcasm dataset上实现99.60%的检测准确率,在NLP和机器学习领域中实现了与传统算法89.93%的比较。还引入了Local Interpretable Model-Agnostic Explanations来实现可解释性。
Mar, 2023