Jun, 2024

基于视觉输入的故事生成:技术、相关任务和挑战

TL;DR从视觉数据中创建引人入胜的叙述对于自动化数字媒体消费、辅助技术和互动娱乐至关重要。该研究综述了用于生成这些叙述的方法学,重点讨论其原理、优势和局限性。该综述还涵盖了与自动故事生成相关的任务,如图像和视频字幕以及视觉问题回答,以及没有视觉输入的故事生成。这些任务与视觉故事生成存在共同的挑战,并为该领域使用的技术提供了灵感。我们对主要数据集和评估指标进行了分析,并提供了对其局限性的批评性观点。