通过个性化实现引人入胜的图像字幕

Oct, 2018

通过个性化实现引人入胜的图像字幕

Engaging Image Captioning Via Personality

Kurt Shuster, Samuel Humeau, Hexiang Hu, Antoine Bordes, Jason Weston

TL;DR本研究定义了一项全新的任务 —— 人格化字幕，旨在提高人类与机器之间的互动性，并基于 215 种可能的人格特征收集并发布了 201,858 个字幕的大型数据集。该研究运用了转换器及 1.7 亿对话样本对句子表示进行建模，通过 Mahajan 等人（2018 年）的图像表示及针对 35 亿社交媒体图像进行训练的 ResNets 得到图像表示。本文在 Flickr30k 和 COCO 上取得最优表现，并经在线评估验证其在人与机器之间的互动性。

Abstract

Standard image captioning tasks such as COCO and Flickr30k are factual, neutral in tone and (to a human) state the obvious (e.g., "a man playing a guitar"). While such tasks are useful to verify that a machine understands the content of an image, they are not engaging to humans as captions. With this in mind we define a new task, →

personality-captions style personality traits dataset transformers

发现论文，激发创造

为品牌准备的社交媒体即时标题生成

通过建立一个包含图像字幕模型和品牌个性化社交媒体字幕生成模型的流水线解决方案，我们提出一种协助品牌创作符合图像和品牌个性的吸引人社交媒体字幕的方法，使用者可以灵活地提供希望包含在字幕中的主题标签、Instagram 账号、URL 和命名实体，从而使字幕内容与社交媒体标识更有语义相关性。我们的方法在定性和定量的评估中与各种基准方法进行比较，证明了其有效性。

Jan, 2024

实体感知图像标题生成

提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题，该模型通过填充来自于 hashtags 的具体命名实体，使得生成的基于输入图像的模板描述信息更加丰富，实验结果表明该模型在多种评价指标上显著优于单模态基准线。

Apr, 2018

2015 MSCOCO 图像标注挑战赛的经验教训

本篇论文介绍一种基于深度递归结构的生成模型，其结合了近期在计算机视觉和机器翻译方面的进展，能够用于生成描述图像的自然语言句子，并经过多种数据集的实验，验证了模型的准确性和语言的流畅性。更重要的是，该模型是通过对图像描述的学习而得，在最近的 COCO 数据集比赛中获得了与 Microsoft Research 团队平分秋色的好成绩，并提供了一个基于 TensorFlow 开源的实现。

Sep, 2016

基于图像的聊天：引人入胜的实地对话

本论文研究了基于图像的对话沟通的大型架构和数据集，利用现代状态下的图像和文本表征方式考虑不同的融合方式以实现机器人与人之间的对话，提出了 Image-Chat 数据集并通过自动指标和人类评估验证了模型的有效性以及其在现有基准测试中的表现，并得出最佳模型与人类表现相当的结论。

Nov, 2018

人工智能中的幽默：巨规模众包偏好和漫画字幕基准

我们提供了一个独特的多模态偏好数据集，用于创意任务，在过去的八年中通过众包整理了超过 250 万个标注为《纽约客》周刊漫画字幕比赛的超过 2.2 亿个人类评分。通过结合 GPT4 和人类判断，建立了基于排名的评估策略，我们对模型生成的字幕质量提出了新的评估标准。实验证明了当前的 Fine-Tuning 方法在创意任务中的局限性，并且我们展示了即使是 GPT4 和 Claude 这样的最先进模型在生成幽默字幕方面也不及顶级人类参赛者。经过这项大规模的数据收集工作，我们将整个偏好数据集释放给研究界，促进 AI 幽默生成和评估的进一步发展。

Jun, 2024

随心所欲的图像字幕生成：一种有效注入情感到图像描述的多功能方案

通过将情感注入图像描述中，我们提出了两种不同的深度学习模型，这些模型可以生成具有情感的图像描述，并可以轻松地以所需的情感生成不同的描述。

Jan, 2018

实体感知新闻图像标题生成

该研究提出了一种端到端模型，用于为嵌入新闻文章的图像生成标题。该模型采用多模态，多头注意力机制，结合字节对编码的转换器语言模型来应对命名实体识别、多义词汇等问题，并在 CIDEr 评分上实现了当前最高水平的四倍提升。

Apr, 2020

一种基于结构和功能分解的沟通游戏人格形象描述方法

本文提出了一种基于通信游戏的个性化图像字幕生成方法，运用 GPT2 语言模型生成字幕，实验表明该方法在个性化图像字幕生成领域取得了最先进的性能表现。

Nov, 2020

基于转移学习和 Adapter 的无监督神经风格文本生成

本文提出一种迁移学习框架，通过更新模型参数的 0.3％来学习响应生成的特定风格属性，解决了在话务系统中保持一致的人物形象和风格的问题。研究表明，个性是改善会话系统参与度和用户体验的关键驱动因素。同时，本研究通过在 ROC 故事语料库中研究风格故事结尾生成问题，从 PERSONALITY-CAPTIONS 数据集中学习风格特定属性，并通过大量实验和评估表明，该新颖的训练方法可以提高风格生成的效果。

Oct, 2022

展示并告诉：神经图像字幕生成器

本文提出了基于深度递归架构的生成模型，结合计算机视觉和机器翻译的最新进展，将图像描述为自然语言的句子，实验结果表明了模型的准确性和流畅性。

Nov, 2014