自动讽刺处理的调研:语言,认知和多元视角
本文提出了第一个多语言(法语、英语和阿拉伯语)和跨文化(印欧语系语言与不太文化接近的语言)的讽刺检测系统。我们使用基于特征和基于神经网络的体系结构,采用单语词表示法。我们比较了这些系统与最先进的系统的性能,以确定它们的能力。我们发现,使用多语言词表示或基于文本的特征在不具备讽刺注释数据的语言中分别训练的这些单语言模型可以打开讽刺检测的大门。
Feb, 2020
人类评估是自然语言生成系统评估的黄金标准方法,但在幽默、讽刺和讽刺等复杂语言形式的生成中,选择评估者团队的特征至关重要,为了透明度和可复制性,应尽最大努力报告人口统计特征。我们通过对每种语言形式的概述以及对示例的分析,支持这些观点,分析不同参与者变量如何影响其解释。此外,我们对近期自然语言生成的作品进行了关键调查,评估在这个子领域的评估程序的报告情况非常缺乏,并且在招募方面严重依赖于众包平台。
Nov, 2023
研究发现,找出人们的反讽和言语讽刺对于理解他们的实际情感和信仰至关重要。因此,反讽分析已成为自然语言处理中一个热门的研究问题。本文作为 FigLang2020 会议的一部分,介绍了一个 sarcasm detection 共享任务,旨在进行基准研究,以分析最先进的技术,推动该领域的进展。
May, 2020
本研究介绍了一种用于讽刺检测的新方法,采用基于提示的学习的大型语言模型(LLMs)来促进以情感为中心的文本增强。与传统的讽刺检测技术相比,通常由于依赖静态的语言特征和预定义的知识库,往往忽视了讽刺中至关重要的微妙情感维度。相反,我们的方法通过将微妙的情感线索与经过增强的 LLMs 相结合,整合到三个广泛应用于讽刺检测中的基准预训练 NLP 模型(BERT、T5 和 GPT-2)中来增强检测过程。我们使用 SemEval-2018 Task 3 数据集评估了我们的方法,并观察到在讽刺检测能力方面得到了显著的增强。
Apr, 2024
本文使用深度学习方法,结合预训练注意力机制和循环卷积神经网络对比喻语言表达进行识别和分析,通过在四个基准数据集上的测试,证明了所提出的神经网络结构在情感分析领域具有最优秀的性能。
Nov, 2019
通过词汇特征和 TF-IDF,在 Twitter 用户中检测到具有讽刺意味的信息,并通过特征选择和模型构建达到 F1 得分 0.84 以上。
Nov, 2023
使用机器学习和基于 ELMO 的字向量表征,可以在 3 个数据源派生的 7 个数据集上提供最先进的性能,以准确预测上下文相关和非文字化表述,如讽刺和嘲讽表达式。
Sep, 2018
分析了两个自然语言推理数据集的语言特征,发现机器学习模型难以理解介词和动词语义重要性,不能理解反义词和同音词,不能理解不完整的句子和罕见单词短语,因此需要在训练过程中尽可能利用更多外部知识。
Oct, 2022