多模态摘要综述
本文提出了一种基于文档和相关视频的新型多模态摘要任务,并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型,旨在同时处理文本和视频摘要。实验结果表明,该模型有利于多模态摘要且优于现有方法,同时构建了一个新的文档和视频数据集作为未来研究的资源。
Sep, 2020
本文提出一个交互视觉和语言领域的多模式多媒体总结(MHMS)框架,旨在通过多模式输出为新闻文章自动生成封面图片和标题,或为在线视频提供介绍。本文的 MHMS 方法包含视频和文本细分和摘要模块,分别生成代表性关键帧和文本摘要,并利用最优输运距离制定跨域对齐目标,从而增强了跨域交互并产生高质量的多模式摘要。本文在三个最近发布的多模式数据集上评估了 MHMS 方法的效果。
Apr, 2022
通过创建包含视频和文本内容的人工验证摘要、17 个主分类和 170 个子分类的全面的数据集 MultiSum dataset,本文针对现有公共 MSMO 数据集的限制进行研究,进行了基准测试,并推出了数据收集工具和开放源代码资源以促进透明度和加速未来发展。
Jun, 2023
本文提出了基于视频的多模态摘要任务,探讨视频语义信息和文章相结合的多模态生成机制;基于双重交互机制和条件自注意力机制提出了多模态生成器 DIM, 在真实数据集上取得了最优表现。
Oct, 2020
多模态机器翻译是近年来引起学术界和工业界广泛关注的研究领域,本文通过综述先前的 99 项研究工作,全面总结了主要模型、数据集和评估指标,分析了各种因素对模型性能的影响,并讨论了未来该领域的研究方向。与之前限制在早期多模态机器翻译的调查不同,我们的调查从不同角度深入总结了这些新兴类型,以便为研究人员提供对目前研究状况的更好理解。
May, 2024
本文提出了一个灵活的自动摘要模型,利用统一主题编码器和三元对比学习,将单一或多模侧面信息与文档在相同语义空间内对齐。 在三个常用总结数据集上优于强基准线。
May, 2023
在人工智能领域的演变环境中,图像与文本信息的融合已成为一个关键的领域,引发了图像 - 文本多模态模型的出现。本文全面回顾了图像 - 文本多模态模型的发展和现状,探讨了其应用价值、挑战和潜在研究方向。通过细分演化阶段,提出了三个不同阶段的分类,根据其引入时间和对学科的影响。此外,根据任务在学术领域的重要性和普及性,对图像 - 文本多模态模型相关任务进行了五个主要类型的分类,阐明了每个类别内的最新进展和关键技术。尽管这些模型取得了显著成就,但仍存在许多挑战和问题。本文深入探讨了图像 - 文本多模态模型固有的挑战和限制,促进了未来研究方向的探索。我们的目标是提供对图像 - 文本多模态模型研究现状的全面概述,并为未来学术工作提供有价值的参考。我们邀请广大学术社区共同合作,推进图像 - 文本多模态模型社区的发展。
Sep, 2023