Oct, 2018

通过个性化实现引人入胜的图像字幕

TL;DR本研究定义了一项全新的任务 —— 人格化字幕,旨在提高人类与机器之间的互动性,并基于 215 种可能的人格特征收集并发布了 201,858 个字幕的大型数据集。该研究运用了转换器及 1.7 亿对话样本对句子表示进行建模,通过 Mahajan 等人(2018 年)的图像表示及针对 35 亿社交媒体图像进行训练的 ResNets 得到图像表示。本文在 Flickr30k 和 COCO 上取得最优表现,并经在线评估验证其在人与机器之间的互动性。