协作漫画生成:将视觉叙事理论与人工智能模型整合以增强创造力
本文提出了一个计算创意视觉叙述的管道和任务模块, 用于构建一个具有不同环境, 基于叙述目标的变异和面向受众的故事叙述能力的计算机视觉技术, 并分析了收集的数据并描述了此方法向自动化的计划。
Jul, 2018
本研究设计了一种新的图像故事生成数据集Visual Writing Prompts,通过众包方式收集与每个图像序列对应的12K个故事,并基于角色一致性提出了一种新的故事生成模型,与现有技术相比,生成的故事更为连贯、有更强的叙述性和视觉基础。
Jan, 2023
通过主题分析创作过程中的变异性,本研究呈现了创造性视觉叙事过程中的五个主题:根据视觉叙事与构想进行叙述、动态描绘实体/物体特征、感知场景的经验性信息、调节情绪、编码叙事偏见。从对人们从图像中获取故事的不同方式的理解出发,我们提出了收集以故事驱动的训练数据来支持自动故事生成的注意事项。同时,我们针对每个主题提出了计算机视觉叙述智能标准:创造性、可靠性、表达性、基于实证的、负责任的,从这些标准出发,我们讨论了如何突出创意表达、考虑偏见,并对视觉叙事世界的范围进行了操作。
Oct, 2023
我们提出了一种基于理论启发的视觉叙事生成器,该生成器融合了漫画创作习语,将漫画的概念原则转化为整合理论的系统层次,用于创作漫画内容。生成器通过从面板构图、物体位置、面板转换和叙事要素的层次上进行顺序决策来创建漫画。每个层次的决策基于叙事目标,遵循媒体的相应层次习语。借鉴Cohn的叙事语法提供整体故事弧线。面板构图采用受三分法启发的照片构图。基于McCloud提出的面板转换理论,包括场景、人物和时间变化之间的焦点转移的转换层被编码进系统中。最后,基于对动作动词使用动作动词本体论进行分析,添加常见的叠加符号(例如感叹号)。通过各种设置和示例输出展示了生成的漫画的多样性。该生成器和相关模块可以用于视觉叙事创作,并进一步研究视觉叙事理解的计算模型。
Dec, 2023
我们提出了一个名为SARD的可视化工具,用于利用大型语言模型生成多章节故事,通过对其可用性和创意支持的评估,我们发现节点可视化可能有助于作者建立心理模型,但在故事更加复杂时会导致不必要的认知负荷和注意力分散,还发现无论故事复杂与否,AI生成的故事在词汇多样性方面都较少,这些发现为未来人工智能与人类共同创作工具的发展提供了指导。
Mar, 2024
通过介绍一种新的方法,本文研究了如何从单一的文本提示产生具有一致的视觉特征的角色表达,通过定量和定性分析,证明了该方法在生成具有一致视觉特征的角色方面优于现有方法,扩展了艺术和创作表达的可能性。
Jun, 2024
本研究解决了漫画理解中的特殊问题,强调漫画这一复杂媒介对视觉语言模型的挑战。通过介绍漫画理解层次框架(LoCU),提出了任务导向的方法,并对现有研究方法进行分类,最终指出未来研究的方向,推动视觉语言模型在漫画领域的应用。
Sep, 2024
本研究解决了儿童故事讲述缺乏趣味性的鸿沟,提出了一种新颖的教育工具,利用生成性人工智能进行故事共创、文本转语音和文本转视频的融合。研究发现,该系统显著提升了故事的语言质量、语音转换效果和视觉生成的相关性,为学习者提供了更加吸引人的学习体验。
Sep, 2024
本文提出了一种教育工具,利用生成性人工智能(GenAI)增强儿童故事讲述。通过叙事共同创作、文本转语音和文本转视频等技术的结合,创造出引人入胜的学习体验。研究显示,该系统能有效提升故事生成的语言质量、文本转语音的准确性和生成视觉的相关性。
Sep, 2024
本研究针对现有大语言模型在创意故事生成中的人物多样性和细节不足的问题,提出了一种新颖的故事生成框架CCI(基于想象的人物中心创意故事生成)。该框架通过图像引导想象和多写作者模型两个模块,显著提高了故事中人物、背景和主线的创意性和生动性,展示了人机互动在文化发展中的潜在影响。
Sep, 2024