Jun, 2024

人工智能中的幽默:巨规模众包偏好和漫画字幕基准

TL;DR我们提供了一个独特的多模态偏好数据集,用于创意任务,在过去的八年中通过众包整理了超过 250 万个标注为《纽约客》周刊漫画字幕比赛的超过 2.2 亿个人类评分。通过结合 GPT4 和人类判断,建立了基于排名的评估策略,我们对模型生成的字幕质量提出了新的评估标准。实验证明了当前的 Fine-Tuning 方法在创意任务中的局限性,并且我们展示了即使是 GPT4 和 Claude 这样的最先进模型在生成幽默字幕方面也不及顶级人类参赛者。经过这项大规模的数据收集工作,我们将整个偏好数据集释放给研究界,促进 AI 幽默生成和评估的进一步发展。