用于讽刺的大型自注释语料库
本文探讨了利用 Mechanical Turk 上未经培训的注记者实现高度可靠的讽刺标注的标注方法,说明了使用大量常见的统计可靠性措施,如 Kappa,Karger,Majority Class 和 EM,而更复杂的措施对于我们的数据似乎没有产生更好的效果。
Sep, 2017
本文描述了如何通过构建一个大规模、高度多样化的线上辩论论坛对话语料库及其对讽刺言语两种分类构建创新方法,使用词汇 - 语法线索可准确检索出讽刺言语,并在简单特征和弱监督自然语言模式学习的实验中得到了较高的表现。
Sep, 2017
本研究提出了专门用于孟加拉文文本数据的 Sarcasm 数据集(BanglaSarc),该数据集包含来自各种在线社交平台的 5112 个评论 / 状态和内容,将有助于研究识别讽刺和检测孟加拉语表达式等领域。
Sep, 2022
本论文针对识别嘲讽表达中的情感这一未被探索的任务,使用了最近发布的多模态嘲讽检测数据集(MUStARD)进行研究,并修正了其中的错误标签,最终将数据集标记上情感、情感强度和具体嘲讽类型,并提出多模态融合模型,用于嘲讽情感识别,表现优于现有的技术水平。
Jun, 2022
该研究介绍了一个新的数据集,KoCoSa,用于韩语对话中的讽刺检测任务,并提供了用于该任务的基线系统。实验证明,基线系统在韩语讽刺检测任务中优于 GPT-3.5 等大型语言模型。
Feb, 2024
本文汇总了过去的研究成果,讨论了自动讽刺检测的数据集、方法、趋势和问题,并呈现了过去有关特征、注释技术和数据形式等不同方面的论文总结表格。关键技术包括半监督模式提取、基于标签的监督以及针对目标文本进行的上下文分析。
Feb, 2016
本文使用 RoBERTa_large 对 Twitter 和 Reddit 数据集进行讽刺检测,并通过使用三种不同类型的输入来确定上下文在提高性能方面的重要性。我们表明,我们提出的架构在两个数据集中都具有竞争力,并且在 Reddit 数据集中增加分隔符可以提高 F1 分数的 5.13%。
Jun, 2020
介绍了一种新的数据收集方法 —— 反应监督方法,利用在线对话的动态规律克服了现有数据收集技术的局限性,从而创建和发布了第一个具有讽刺视角标签和新的上下文特征的大规模推文数据集,预期将推动讽刺检测研究进展。该方法可应用于其他情感计算领域,从而开启新的研究机会。
Sep, 2020
本研究旨在对英语计算讽刺研究的最新进展和趋势进行简要概述,包括使用非监督预训练转换器在多模态环境中进行讽刺检测以及整合上下文以识别讽刺。我们介绍与讽刺相关的数据集、方法、趋势、问题、挑战和任务,提供针对讽刺的特征和其提取方法的汇总表,以及各种方法的性能分析,这些都可以帮助相关领域的研究人员了解讽刺检测中的最新技术实践。
Sep, 2022