本研究提出了一种迭代的对抗攻击方法(Iterative-attack),该方法融合了图像和文本攻击,可以更有效地搜索对抗性的文本和图像,从而提高多模态文本生成模型的对抗鲁棒性。实验结果表明,该方法优于现有的单模态和非迭代多模态攻击方法,这表明可以提高多模态文本生成模型的安全性。
May, 2023
该论文提出了一种基于对比学习的故事结尾生成框架 CLSEG,其采用多方面采样机制和特定于故事的对比训练策略来解决故事结尾与故事情节之间的一致性问题。实验证明,CLSEG 相对于基线方法表现更好,能够产生更具一致性和合理性的故事结尾。
Feb, 2022
本文介绍了 Story Ending Generation (SEG) 任务,提出了一个由 Generator 和 Reward Manager 组成的框架来生成一个连贯的故事结尾,其中 Generator 使用了指针生成网络与覆盖机制来处理词汇表外(OOV)和重复的单词,同时使用混合损失方法来生成具备高语义相关性的故事结尾,Reward Manager 使用策略梯度强化学习(PGRL)来微调 Generator,实验表明,相较于序列到序列基准模型,我们的模型在自动评估和人类评估中分别提高了 15.75%和 13.57%的 CIDEr 和一致性得分
Jan, 2019
StoryImager 是一个双向的、统一的、高效的框架,通过增强继承于预训练的文本到图像模型的 storyboard 生成能力实现双向生成。具体而言,我们引入了一种目标框架掩码策略来扩展和统一不同的故事图像生成任务。此外,我们提出了一种框架 - 故事交叉注意力模块,用于分解交叉注意力以实现局部保真度和全局一致性。此外,我们设计了一个上下文特征提取器,从整个故事线中提取上下文信息。广泛的实验结果证明了我们的 StoryImager 具有出色的性能。
Apr, 2024
在 GAN 生成模型中学习文本和图像表示之间的语义对齐以缓解文本图像语义不匹配问题,进而生成连贯、高质量的多句故事可视化。
Nov, 2022
该论文提出了一种新型的可解释的未来事件生成框架 Coep,该框架集成了两种类型的事件知识,包括直接事件 - 事件关系的序列知识和反映事件之间的心理联系的推理知识,并设计了两个模块 Im 和 Gm,以帮助生成未来事件。
Jan, 2022
本文提出了一种基于多模态模仿学习生成对抗网络(MIL-GAN)的方法,直接将用户的兴趣建模为各种数据所反映的用户展示故事情节,以此解决了故事情节度量的核心挑战,该方法能够获取用户的隐含意图,并通过用户研究大幅优于现有方法。
Dec, 2017
该研究提出了一个针对性地为每个角色生成结尾的算法 ——CoSEG,该算法包含三个模块,即角色建模、向量断裂 / 形成和注意机制。 实验结果表明,CoSEG 相对于现有的最先进方法在生成故事结尾的质量上取得了显着的提高,并且它可以有效地对不同角色进行结尾的定制。
Sep, 2022
本研究提出一种交互式图像分割网络,利用跨模态视觉 transformers 来更好地指导学习过程,并且在多个基准测试中实现了优越的性能表现,具有实用的注释工具潜力。
Jul, 2023
本研究提出一种领域特定的、可从少量标注的图文数据训练的、可在缺乏可视化背景下合成图像的视觉联想事件检测方法,实验结果表明,在 M2E2 基准数据集上,该模型的性能超过了现有的最先进模型达 11 个百分点。