TGIF:一个新的动态图描述数据集与基准
Auto-captions on GIF 是一个新的大规模预训练数据集,可用于视频理解、视频字幕生成等下游任务的通用特征表示或编码器 - 解码器结构的预训练。通过 Auto-captions on GIF 数据集,我们还对基于 Transformer 的编码器 - 解码器结构进行了分析和评估,并在 MSR-VTT 上获得了强大的泛化性能。
Jul, 2020
本文提出了一种利用用户生成的 GIF 内容自动生成 GIF 的方法,并提出了一种 Robust Deep RankNet,用于根据 suitability 生成 video 的 ranked list。在大量的用户生成数据上,本模型可识别出流行的 GIF 模式并具有鲁棒性(robust)和较高的准确度(advantage)。
May, 2016
本文介绍了一个包含图文的在线会话数据集,并提出了一种基于多模态对话模型 Pepe the King Prawn 的图文回复选择算法,在实际测试中证明了相对于其他模型选择的高质量图文回复更受到用户的欢迎和认同。
Sep, 2021
本文介绍了我们参加 SocialNLP 2020 和 EmotionGIF 2020 的比赛时采用的一种基于关注机制双向 GRU 网络的分类模型以及采用深度神经网络和集成学习技术进行的分类方法。通过两个比赛,我们的模型均取得了最佳的平均召回率得分。
Dec, 2020
在这项研究中,我们提出了一个多模态框架,整合了视觉和文字特征来预测 GIF 表情的情感,并结合面部情绪检测和 OCR 生成的字幕来捕捉 GIF 的语义方面。通过在 Twitter GIF 上进行实验,我们的分类器达到了 82.7% 的准确率,优于最先进的模型。此外,我们基于 ReactionGIF 数据集进行研究,分析了作者和读者感知的情感差异。
Dec, 2023
我们提出了 Pix2Gif,一种用于图像到 GIF(视频)生成的运动引导扩散模型。通过将任务表述为由文本和运动幅度提示引导的图像转换问题,我们以不同的方式解决了这个问题。为了确保模型遵循运动引导,我们提出了一种新的运动引导变形模块,以在两种提示的条件下空间转换源图像的特征。此外,我们引入了一个感知损失,确保变换后的特征图与目标图像保持相同的空间,以确保内容的一致性和连贯性。在模型训练准备阶段,我们通过从 TGIF 视频标题数据集中提取一致的图像帧来精心筛选数据,该数据集提供了关于主题的时序变化的丰富信息。在预训练之后,我们以零样本的方式将我们的模型应用于多个视频数据集。广泛的定性和定量实验证明了我们的模型的有效性 - 它不仅捕捉了文本的语义提示,还捕捉了运动引导的空间提示。我们使用一个 16xV100 GPU 节点训练所有模型。代码、数据集和模型在此 https URL 中公开。
Mar, 2024
该论文主要介绍了 2020 年 ACL 会议上举办的 EmotionGIF2020 比赛及其数据集(包含 40,000 条带有反应表情的推文),旨在预测用户对于在线文本的情感反应,并评估了参赛队伍的表现,获胜队伍再 Recall@K 指标下的得分为 62.47%。
Feb, 2021
本文通过学习比赛的方式,提出一种基于 BERT 和 LightGBM 的学习排序框架,将推荐 GIF 类别作为一种匹配任务来解决,获得了平均精度 @6 (MAP@6) 为 0.5394 的第四名。
Aug, 2020