知识图谱支持的篮球基准测试和视频字幕
本研究提出了 GOAL 基准测试,通过 22k 个句子和 42k 个知识三元组,对超过 8.9k 个足球视频剪辑进行挑战性的新任务设置,即基于知识的视频字幕生成,旨在生成关于特定领域场景的生动、细致的视频描述,为自动体育叙述等领域提供了广泛应用。同时,对现有方法进行实验改进,展示了解决这一有价值有应用的任务的困难和潜在方向。
Mar, 2023
该研究提出一种构建多模态知识图谱,将视觉对象和命名实体联系起来并同时捕捉实体之间的关系在内的新方法,以帮助名实体感知图像并生成更具信息量的事件描述。
Jul, 2021
本文提出了一种基于知识图谱的 transformer 方法 (TextKG),分为内外两个流,外部流用于吸收额外知识、缓解长尾词等问题,内部流用于探索多模态信息以保证字幕结果质量。实验表明该方法在视觉字幕领域的四个数据集上均有较好表现。
Mar, 2023
提出了一种名为 MSG-BART 的新方法,通过将多粒度时空场景图集成到编码器 - 解码器预训练语言模型中,增强了视频信息的整合,改进了整体感知和目标推理能力,进一步提高了信息选择能力。在三个视频对话基准测试上进行了广泛的实验,表明 MSG-BART 相比一系列最先进的方法具有显著的优势。
Sep, 2023
本论文提出了一种新颖的方法,通过提取直播文本中的关键时刻,并使用它们创建新闻的初始草稿,进一步通过特殊设计的体育知识图谱中的关键细节和背景信息进行改进,利用融合卷积神经网络和变换器编码器的多阶段学习模型,通过处理器计算不完整三元组的匹配分数,解决了少样本知识图谱补全问题,并经过主客观评估确认其能够彻底改变体育新闻的创作方式。
Feb, 2024
在这篇论文中,我们提出了直接生成有实体感知能力的新闻视频标题的任务,并发布了一个大规模数据集 VIEWS (VIdeo NEWS) 以支持该任务的研究。同时,我们还提出了一种方法,通过从外部世界知识中检索到的上下文来增强视频中的视觉信息,以生成具有实体感知能力的标题。通过在三个视频字幕模型上的广泛实验和见解,我们证明了我们方法的有效性,并且展示了我们的方法能够推广到现有的新闻图像字幕数据集。相信我们为这一具有挑战性的任务奠定了坚实的研究基础。
Dec, 2023
介绍 GAME-MUG,一个包含多模态游戏情境理解和观众参与评论生成数据集的新数据集,以及使用鲁棒性联合多模态双学习模型作为基线的新观众对话增强评论数据集。通过覆盖游戏情境和观众对话的学习,引入时间序列事件日志,检查模型对游戏情境 / 事件的理解能力和评论生成能力,展示多模态方面覆盖和联合集成学习方法的有效性。
Apr, 2024
通过使用 MT 和 PVDC 生成视频字幕,我们提出了一个从自动生成的视频字幕中提取语义元数据的框架。 我们的实验表明,可以从生成的字幕中提取实体,属性,实体之间的关系和视频类别。
Nov, 2022
通过我们的广泛评估,我们展示了目前最先进的方法在解决我们提出的基准测试中面临着重大挑战,凸显了多模态大型语言模型中细粒度知识编辑的复杂性,这进一步凸显了在这个领域中需要创新方法的迫切需求,为未来的研究和开发工作设定了明确的议程。
Feb, 2024
本文介绍了一个新的数据集 Kinetic-GEB+,该数据集有助于通过状态更改促进视频的细粒度、鲁棒性和类人理解,还设计了新的 TPD 建模方法,可使视觉差异的表示和精确定位状态更改得到显著的性能改进。
Apr, 2022