在视觉叙事中检测和固定重要角色
该研究利用 VIST 数据集,提出了一个模型,通过隐式学习提供的角色之间的关系,生成关注的角色的故事,旨在解决基于图像序列生成故事时,模型忽略可能存在的人和动物角色的问题。
Sep, 2019
此研究提出并介绍了拥有角色描述的文学作品摘要数据集 LiSCU,探索了文学角色理解中的新领域,并通过使用预训练语言模型进行的实验,表明需要更好的叙事理解模型。
Sep, 2021
通过对文本中字符和位置的跟踪,我们提出了一种新的空间关系分类任务,并使用规范化的注释和上下文嵌入作为特征来预测它们,结果发现,主角移动的比较多,女性角色更多地占据内部空间。
May, 2023
本研究设计了一种新的图像故事生成数据集 Visual Writing Prompts,通过众包方式收集与每个图像序列对应的 12K 个故事,并基于角色一致性提出了一种新的故事生成模型,与现有技术相比,生成的故事更为连贯、有更强的叙述性和视觉基础。
Jan, 2023
我们提出了一种基于人物感知关系的视频故事问题回答模型,它通过多示例共现匹配实现弱监督人脸命名,并利用 Transformer 结构支持高水平推理。我们在 TVQA 数据集上进行了训练和测试,并通过广泛的消融研究验证了我们提出的方法。
May, 2020
本研究探讨了基于神经生成的不同人格特征的视觉故事生成,通过在编码器和解码器表示中添加人格来引导生成,提出了五种模型,并使用五种不同的人格进行实验,结果表明我们的模型在生成目标人格的故事时表现更好。
Jun, 2019
该论文提出了一种评估图像序列生成的故事质量的方法,并针对视觉扎根度进行了分析和度量,提出了一种模块化设计的评估工具 GROOViST,该工具考虑了跨模态依赖、时间错位以及人类感知对视觉扎根度的影响。
Oct, 2023
提出了一种基于弱监督学习的电影描述模型,通过学习角色的可视外观和描述之间的关系来实现角色地位的划分,该模型不仅提高了生成描述的质量,还实现了角色定位,局部共指分辨率,并在 MPII 电影描述数据集上进行了评价。
Apr, 2017
本文提出了一种针对汉字、日语、韩语等语言内所含罕见字符提高识别准确度的模型,它基于字符的构成并通过卷积神经网络生成视觉上的字符嵌入。实验结果表明该模型可更好地处理具有稀有字符的语言文本,并且能够学习集中于传达语义信息的字符部件,从而生成具有视觉一致性的字符嵌入。
Apr, 2017