众包标注的西班牙语幽默分析语料库
本文主要介绍了自动检测文本中幽默的困难性,分析了社交媒体文本中语言混合对幽默检测的挑战,提出了一种基于英语 - 印地混合语的幽默检测技术,并提供了基于此技术的分类系统。
Jun, 2018
我们提供了一个独特的多模态偏好数据集,用于创意任务,在过去的八年中通过众包整理了超过 250 万个标注为《纽约客》周刊漫画字幕比赛的超过 2.2 亿个人类评分。通过结合 GPT4 和人类判断,建立了基于排名的评估策略,我们对模型生成的字幕质量提出了新的评估标准。实验证明了当前的 Fine-Tuning 方法在创意任务中的局限性,并且我们展示了即使是 GPT4 和 Claude 这样的最先进模型在生成幽默字幕方面也不及顶级人类参赛者。经过这项大规模的数据收集工作,我们将整个偏好数据集释放给研究界,促进 AI 幽默生成和评估的进一步发展。
Jun, 2024
本文创建了一个通过标注观众的笑声来注释训练数据的幽默系数得分的新型评分机制的多模态幽默注释数据集,用于训练一个给予音频及相应文本一个五分量表中的 “有趣程度” 分数的模型,并比较了各种神经语言模型的幽默评分任务,其 QWK 准确度达到了 0.813。
Oct, 2021
本文介绍了一种新的 Passau-SFCH 数据集,用于幽默和其情感和方向的自动分析,研究结果表明,对于幽默和其情感的自动分析,面部表情最有潜力,而文本特征最适合模拟幽默方向。
Sep, 2022
该论文介绍了自注释 Reddit 语料库(SARC),该语料库为讽刺研究以及训练和评估讽刺检测系统提供了大量的数据。每个陈述还被作者自行注释,并配有用户、主题和对话上下文。通过构建基准测试和评估基线方法,我们对该语料库进行了准确度评估。
Apr, 2017
本文讲述了 SemEval-2020 共享任务 “评估编辑新闻标题中的幽默”。任务的数据集包含应用了简短编辑使其有趣的新闻标题,这些编辑后的标题的有趣程度使用众包评级。该任务包括两个子任务,第一个是在 0-3 区间的幽默等级上估计标题的幽默程度。第二个子任务是为同一原始标题的一对编辑版本预测哪个更有趣。迄今为止,这是最受欢迎的共享计算幽默任务,吸引了 48 个团队参加第一个子任务和 31 个团队参加第二个子任务。
Aug, 2020
本研究到了关于文档分类模型公平性评估的现有研究,主要使用无作者人口属性基准事实的合成单语言数据。在该工作中,作者们汇编并发布了一个多语言 Twitter 语料库,用于推断作者的四个人口属性:年龄,国家,性别和种族 / 民族。该语料库涵盖了五种语言:英语、意大利语、波兰语、葡萄牙语和西班牙语。我们使用 Figure Eight 的众包平台评估了推断出的人口属性标签的准确性。为了检查可能引起偏见的因素,我们对英语语料库进行了人口预测的实证分析。我们评估了四种流行文档分类器的性能,并评估了基准分类器在作者级人口属性上的公平性和偏见。
Feb, 2020
通过对 Ruo Zhi Ba 平台上的智力挑战和文化特定笑话进行注释,我们构建了一个名为 Chumor 的数据集,并通过 A/B 测试与两种先进的语言模型 GPT-4o 和 ERNIE Bot 进行人类解释评估,结果表明 Chumor 是对于 SOTA 语言模型也具有挑战性,而 Chumor 笑话的人类解释明显优于语言模型生成的解释。
Jun, 2024
本文介绍了一个新的 Twitter 数据语料库,其中包含被注释为西班牙语和英语之间的代码切换或借用的 9,500 个推文,旨在清晰定义代码切换和借入之间的界限,并可用于研究和建模 Twitter 上的西班牙语 - 英语借用和代码切换,最终给出了基于 Transformer 模型的语言模型的基准得分。
Jun, 2022
本研究提出了一种基于动态分配众包的方法,以更低的成本从 Twitter 上收集关于美国总统候选人的意见标签,并通过决策树来分配更多的用户努力预测的具有讽刺意味的标题,从而提高标注精度。
Aug, 2016