寻找悬念:肥皂剧中的多模态剧情张力
这篇论文主要研究了如何用模块化方法总结电视节目,涉及人工智能研究中的复杂推理、多模态和长篇叙述等关键领域。作者提出了一种模块化方法,通过不同组件执行特定子任务,可以比端到端方法更灵活地实现。论文还引入了一个新的指标 —— 基于 PREFS(Summary Facts 的精确度与召回率评估)来衡量生成摘要的精确度与召回率,并将其分解为原子事实。在最近发布的 SummScreen3D 数据集上测试,该方法比其他模型生成的摘要具有更高的质量,这是通过 ROUGE 评估和新的基于事实的指标得出的。
Mar, 2024
该研究通过 “学习带噪标签” 这种更实用的方法,使用现有的丰富视频数据来检测电影亮点,提出了协作噪声标签清洁器(CLC)框架来利用多模式融合和观察不同模态的损失变化来实现更干净的亮点标签。通过 MovieLights 和 YouTube Highlights 数据集的全面实验,证明了该方法的有效性。
Mar, 2023
本研究中,我们提出了一种利用预发布的电影预告片作为弱监督来检测电影关键时刻的模型。我们引入了一种新颖的排名网络,利用电影和预告片之间的共同关注作为指导,生成高度相关的训练数据对,并提出了一种对特征表示进行增强的对比关注模块,使关键和非关键时刻之间的对比最大化。我们构建了第一个电影 - 预告片数据集,并证明了所提出的方法的性能优越性。
Aug, 2020
我们提出了一种自动化分章节的电视新闻节目视频的新方法,通过冻结神经网络和训练的 LSTM 网络,集成了音频和视觉线索来准确生成节目片段边界,并在 500 多个电视新闻节目视频的多样数据集上进行了评估,结果表明这种创新的融合策略达到了最新性能,较高的精度率为 82% 的 IoU。因此,这种方法显著提升了电视新闻节目档案的分析、索引和存储能力,为大规模音视频资源的高效管理和利用铺平了道路。
Mar, 2024
该研究提出了一种新方法,通过将对话汇总成文本描述的方式,摆脱人工制作的来源,以理解整个故事,从而使得视频问答系统在不使用特定问题的人类注释或人工情节概述的情况下在 KnowIT VQA 数据集上明显胜过现有技术,并且甚至胜过从未观看过整个剧集的人类评估者。
Mar, 2021
该研究通过设计视觉模块和时间分析模块,提出了一种从电影数据中学习视觉模型的替代方法,可以通过预告片学习视觉模块,通过电影数据学习时间分析模块,大大减少学习成本的同时还能够保留长期的时间结构和有效的视觉特征。
Jun, 2018
该论文介绍了一种利用多模态技术实现广告视频内容结构化分析的系统,包括场景分割和多模态标记两个任务,通过视觉和文本特征相结合的方法,在 2021 年 TAAC 竞赛中获得了 0.2470 的高得分。
Aug, 2021
该研究通过使用 1,106 集电视剧和 24,875 个由专业人士编写的信息密集的剧情句子,进行 449 个人类注释者的标注,构建了第一个面向剧情的电视领域的多模态数据集 PTVD,同时也是该领域中第一个非英文的数据集,并开发了多模态算法,针对不同的电影 / 电视建模问题进行处理,并在三个认知启发任务上进行了广泛的实验,从而验证了该数据集在促进多模态研究上的价值。
Jun, 2023
该论文提出了一种基于 TV-TREES 的多模态蕴涵树生成器,用于解决在电视剪辑等复杂多模态内容上的问答问题,通过生成简单前提与视频直接蕴涵的更高级结论之间的蕴涵关系树,实现可解释的联合模态推理;在 TVQA 数据集上进行的实验证实了该方法在全视频剪辑上的零样本性能,在黑盒方法上取得了最先进的可解释性和性能的最佳结合。
Feb, 2024
本文旨在比较不同类型的视觉、音频、文本和基于元数据的特征对于预测电影的高层信息(如类型或预计预算)的有效性,并介绍了一个新的 Moviescope 数据集,该数据集包括 5000 部电影以及对应的预告片、海报、剧情和元数据。作者实证了在深度学习时代,基于内容的方法相对于基于人类和基于元数据的预测方法在该领域的有效性,并探究了表示视频和文本的时间特征聚合方法的有效性。此外,研究团队还展示了不同模态之间互补性的程度,并发现简单池化操作在该领域是有效的。
Aug, 2019