iSarcasm: 旨在表达讽刺的数据集
本研究探讨了使用作者上下文对文本讽刺检测的影响,使用神经模型提取作者历史帖子的嵌入表示,并在两个 tweet 数据集上进行实验,一个是手动标注的讽刺数据集,另一个是基于标签的远程监督。我们在第二个数据集上实现了最先进的性能,但在手动标注的数据集上未能做到,表明基于远程监督捕捉的意图讽刺存在差异,与手动标注捕捉的感知讽刺不同。
Oct, 2019
本研究旨在对英语计算讽刺研究的最新进展和趋势进行简要概述,包括使用非监督预训练转换器在多模态环境中进行讽刺检测以及整合上下文以识别讽刺。我们介绍与讽刺相关的数据集、方法、趋势、问题、挑战和任务,提供针对讽刺的特征和其提取方法的汇总表,以及各种方法的性能分析,这些都可以帮助相关领域的研究人员了解讽刺检测中的最新技术实践。
Sep, 2022
对四个具有不同讽刺特征的讽刺数据集进行精调的讽刺检测模型的鲁棒性进行了测试,结果发现使用第三方标签进行精调的模型在内部数据集预测中表现更好,而大多数模型在跨数据集预测中无法很好地进行泛化,暗示一个数据集类型无法代表不同风格和领域的所有种类的讽刺。与现有数据集相比,本研究发布的新数据集上精调的模型在与其他数据集的泛化性能上表现最好。通过手动检查数据集和事后分析,我们发现泛化困难的原因在于讽刺实际上存在不同的领域和风格。我们认为未来的讽刺研究应考虑讽刺的广泛范围。
Apr, 2024
在社交媒体上大量使用讽刺文本会对目标用户产生生理影响,讽刺检测对于用户来说很困难,更 对于机器来说是具有挑战性的。此论文讨论了各种讽刺检测技术及其相关数据集等,并总结了一些 方法、挑战和未来的方向。
Apr, 2023
本文汇总了过去的研究成果,讨论了自动讽刺检测的数据集、方法、趋势和问题,并呈现了过去有关特征、注释技术和数据形式等不同方面的论文总结表格。关键技术包括半监督模式提取、基于标签的监督以及针对目标文本进行的上下文分析。
Feb, 2016
分析社交媒体上多模态信息中,表面情感和隐含情感之间的关系,探究图像在人类注释中的必要性,并提出了两种不同的计算框架来检测其中的讽刺色彩。结果表明,结合多模态信息的检测方法在各平台上均取得了良好的效果。
Aug, 2016
通过英 - 印混合码数据集,我们开发了一个基于随机森林分类器并进行了 10 折交叉验证的基线监督分类系统,该系统可以检测到社交媒体上的文字中的反讽,并标记每个标记的语言标签。该系统平均得分为 78.4%。
May, 2018
该研究介绍了一个新的数据集,KoCoSa,用于韩语对话中的讽刺检测任务,并提供了用于该任务的基线系统。实验证明,基线系统在韩语讽刺检测任务中优于 GPT-3.5 等大型语言模型。
Feb, 2024
本文介绍了应用基于深度学习的模型以及预训练的语言模型,在英语和阿拉伯语中进行讽刺检测任务。我们的系统已参与了所有子任务,并在阿拉伯语子任务 A 中取得最佳表现,在子任务 B 中排名第二,在子任务 C 中分别在阿拉伯语和英语数据集中排名第 7 和第 11。
Jun, 2022