多模态事件转换器用于图像引导的故事结尾生成

ACLJan, 2023

多模态事件转换器用于图像引导的故事结尾生成

Multimodal Event Transformer for Image-guided Story Ending Generation

Yucheng Zhou, Guodong Long

TL;DR提出了一种基于多模态事件转换器的图像引导故事结尾生成方法，该方法利用事件图、跨模态融合和事件推理等技术从故事情节和结尾图像中推导隐含信息，并在解码器中适应性地注入必要信息，实验证明其在故事结尾生成方面性能优于现有方法。

Abstract

image-guided story ending generation (IgSEG) is to generate a story ending based on given story plots and ending image. Existing methods focus on cross-modal feature fusion but overlook reasoning and mining impli

image-guided story ending generation multimodal event transformer event-based reasoning cross-modal fusion

发现论文，激发创造

图像引导故事结尾生成的迭代对抗攻击

本研究提出了一种迭代的对抗攻击方法（Iterative-attack），该方法融合了图像和文本攻击，可以更有效地搜索对抗性的文本和图像，从而提高多模态文本生成模型的对抗鲁棒性。实验结果表明，该方法优于现有的单模态和非迭代多模态攻击方法，这表明可以提高多模态文本生成模型的安全性。

May, 2023

CLSEG：故事结局生成的对比学习

该论文提出了一种基于对比学习的故事结尾生成框架 CLSEG，其采用多方面采样机制和特定于故事的对比训练策略来解决故事结尾与故事情节之间的一致性问题。实验证明，CLSEG 相对于基线方法表现更好，能够产生更具一致性和合理性的故事结尾。

Feb, 2022

从情节到结局：一种强化指针生成器用于故事结局生成

本文介绍了 Story Ending Generation (SEG) 任务，提出了一个由 Generator 和 Reward Manager 组成的框架来生成一个连贯的故事结尾，其中 Generator 使用了指针生成网络与覆盖机制来处理词汇表外（OOV）和重复的单词，同时使用混合损失方法来生成具备高语义相关性的故事结尾，Reward Manager 使用策略梯度强化学习（PGRL）来微调 Generator，实验表明，相较于序列到序列基准模型，我们的模型在自动评估和人类评估中分别提高了 15.75％和 13.57％的 CIDEr 和一致性得分

Jan, 2019

StoryImager：一个统一高效的故事可视化和完善框架

StoryImager 是一个双向的、统一的、高效的框架，通过增强继承于预训练的文本到图像模型的 storyboard 生成能力实现双向生成。具体而言，我们引入了一种目标框架掩码策略来扩展和统一不同的故事图像生成任务。此外，我们提出了一种框架 - 故事交叉注意力模块，用于分解交叉注意力以实现局部保真度和全局一致性。此外，我们设计了一个上下文特征提取器，从整个故事线中提取上下文信息。广泛的实验结果证明了我们的 StoryImager 具有出色的性能。

Apr, 2024

学习多模态语义对齐模型以进行故事可视化

在 GAN 生成模型中学习文本和图像表示之间的语义对齐以缓解文本图像语义不匹配问题，进而生成连贯、高质量的多句故事可视化。

Nov, 2022

什么推动了故事发展？从常识推断出作为未来事件生成提示的解释

该论文提出了一种新型的可解释的未来事件生成框架 Coep，该框架集成了两种类型的事件知识，包括直接事件 - 事件关系的序列知识和反映事件之间的心理联系的推理知识，并设计了两个模块 Im 和 Gm，以帮助生成未来事件。

Jan, 2022

基于生成对抗模仿学习的多模态叙事

本文提出了一种基于多模态模仿学习生成对抗网络（MIL-GAN）的方法，直接将用户的兴趣建模为各种数据所反映的用户展示故事情节，以此解决了故事情节度量的核心挑战，该方法能够获取用户的隐含意图，并通过用户研究大幅优于现有方法。

Dec, 2017

不同人物的离子交换机制启发式结局生成器

该研究提出了一个针对性地为每个角色生成结尾的算法 ——CoSEG，该算法包含三个模块，即角色建模、向量断裂 / 形成和注意机制。实验结果表明，CoSEG 相对于现有的最先进方法在生成故事结尾的质量上取得了显着的提高，并且它可以有效地对不同角色进行结尾的定制。

Sep, 2022

跨模态视觉转换器的交互式图像分割

本研究提出一种交互式图像分割网络，利用跨模态视觉 transformers 来更好地指导学习过程，并且在多个基准测试中实现了优越的性能表现，具有实用的注释工具潜力。

Jul, 2023

文本驱动的少样本领域自适应视觉融合事件检测

本研究提出一种领域特定的、可从少量标注的图文数据训练的、可在缺乏可视化背景下合成图像的视觉联想事件检测方法，实验结果表明，在 M2E2 基准数据集上，该模型的性能超过了现有的最先进模型达 11 个百分点。

May, 2023