对最先进的大型语言模型在讽刺检测方面的评估
本研究旨在对英语计算讽刺研究的最新进展和趋势进行简要概述,包括使用非监督预训练转换器在多模态环境中进行讽刺检测以及整合上下文以识别讽刺。我们介绍与讽刺相关的数据集、方法、趋势、问题、挑战和任务,提供针对讽刺的特征和其提取方法的汇总表,以及各种方法的性能分析,这些都可以帮助相关领域的研究人员了解讽刺检测中的最新技术实践。
Sep, 2022
本文使用 RoBERTa_large 对 Twitter 和 Reddit 数据集进行讽刺检测,并通过使用三种不同类型的输入来确定上下文在提高性能方面的重要性。我们表明,我们提出的架构在两个数据集中都具有竞争力,并且在 Reddit 数据集中增加分隔符可以提高 F1 分数的 5.13%。
Jun, 2020
本文介绍了应用基于深度学习的模型以及预训练的语言模型,在英语和阿拉伯语中进行讽刺检测任务。我们的系统已参与了所有子任务,并在阿拉伯语子任务 A 中取得最佳表现,在子任务 B 中排名第二,在子任务 C 中分别在阿拉伯语和英语数据集中排名第 7 和第 11。
Jun, 2022
本文提出一种模型,使用预训练的转换器和 CNN 捕捉上下文特征,用于捕捉蕴含在讽刺中的不一致性,并在社交网络平台和在线媒体的四个数据集上优于以前的最新成果。
Nov, 2022
本研究探讨了生成预训练转换器(GPT)模型(包括 GPT-3、InstructGPT、GPT-3.5 和 GPT-4)在检测自然语言中的讽刺的应用。该研究测试了不同大小和版本的精调和零 - shot 模型,并在 Self-Annotated Reddit Corpus(SARC 2.0)的政治和均衡(pol-bal)部分的讽刺数据集上进行了评估。结果显示,在精调的情况下,最大的精调 GPT-3 模型在准确性和 F1-score 方面达到了 0.81,超过了之前的模型。在零 - shot 的情况下,其中一个 GPT-4 模型的准确性为 0.70,F1-score 为 0.75,其他模型得分较低。此外,每个版本的模型性能可能会有所改善或恶化,强调了需要在每个版本发布后重新评估性能的必要性。
Dec, 2023
本文介绍了 UTNLP 团队在 SemEval-2022 共享任务 6 中进行讽刺性评论检测的方法和结果,对比了不同模型和数据增强方法的效果,最后使用 RoBERTa 和数据突变增强的方法取得了最佳结果。
Apr, 2022
本研究探讨了自动检测讽刺的多种方法,包括通过上下文、发布历史和机器学习模型识别,特别是深度学习方法对于使用具有诱导而不是离散特征的模型以及 transformers 创新的好处具有可观的推动作用。
Feb, 2022
本文提出使用 BERT 和 GloVe 嵌入的机器学习技术来检测推文中的讽刺,该模型利用用户的响应上下文和实际响应来增强检测结果。
Jun, 2020
研究了在社交媒体中检测讽刺语境下的对话背景、LSTM 网络、不同平台之间差异对结果的影响以及定位句子语气的研究,通过定量分析和注意力机制判别出实验结果优于人工标注。
Aug, 2018