阅读，观看和移动：用强化学习将自然语言描述与视频时序地联系起来

AAAIJan, 2019

阅读，观看和移动：用强化学习将自然语言描述与视频时序地联系起来

Read, Watch, and Move: Reinforcement Learning for Temporally Grounding Natural Language Descriptions in Videos

Dongliang He, Xiang Zhao, Jizhou Huang, Fu Li, Xiao Liu...

TL;DR本文通过强化学习和多任务学习建立一个分阶段调整临时定位边界的代理模型，在考虑附加边界信息的训练过程中稳步提高绩效，达到了 ActivityNet'18 DenseCaption 和 Charades-STA 数据集上的最优性能。

Abstract

The task of video grounding, which temporally localizes a natural language description in a video, plays an important role in understanding videos. Existing studies have adopted strategies of sliding window over the entire video or exhaustively ranking all possible clip-sentence pairs

video grounding temporal localization sequential decision making reinforcement learning multi-task learning

发现论文，激发创造

弱监督时间轴自然语言地点在未剪辑视频中的强化学习

该研究提出了一个基于强化学习的边界自适应精细化（Boundary Adaptive Refinement，BAR）框架，用于加强视频中自然语言的时间地位确定性，无需精细的标注，并证明其性能优于现有的弱监督和一些有竞争力的全监督方法。

Sep, 2020

面向时间语言对接的关系感知视频阅读理解

本文提出了一种使用选择 - 查询交互和选择 - 选择关系构建解决视频阅读理解中的时间语言接地问题的框架，并引入了一种新颖的多选择关系构造器，通过利用图卷积捕获最佳选择的视频时刻之间的依赖关系，并在 ActivityNet-Captions、TACoS 和 Charades-STA 数据集上进行了广泛的实验证明了我们的方法的有效性。

Oct, 2021

更加注重细节：视频中句子的弱监督时间根据地

本文研究了弱监督下的视频句子时间定位问题，提出了一个两阶段模型，通过多尺度滑动窗口形成时间片段的间隔性建议，和在特征空间进行粗细匹配定位，最终在 ActivityNet Captions 数据集和 Charades-STA 数据集上取得良好的表现。

Jan, 2020

使用深度递归神经网络将视频翻译为自然语言

本篇论文提出直接利用统一深度神经网络将视频转换为句子的方法，并通过将知识从含标记种类超过 120 万张图像和带字幕的超过 100,000 张图像中迁移而创建具有大型词汇库的开放域视频句子描述。通过与语言生成度量，主语，动词和宾语预测准确度以及人的评估进行比较，证明本方法的有效性。

Dec, 2014

基于实况视频描述

该文介绍了利用视频中物体的 bounding box 将描述影片的句子与影片中的客观证据联系起来，并给出了一个能够利用 bounding box 的词语注释的视频描述模型，其在视频描述、视频段落描述和图像描述上均表现出了最先进的性能和更好的联系性。

Dec, 2018

深度强化学习中的迁移语言基础

本文介绍了一种利用自然语言驱动强化学习传递的方法，并使用模型化强化学习方法和实体描述等技术，在不同环境下实现了更好的性能表现。

Aug, 2017

通过上下文边界感知预测，在视频中确定语言查询的时间基点

本文提出了一种基于 Contextual Boundary-aware Prediction (CBP) 的端到端模型来在视频中定位语句，并通过明确建模当前元素与其邻居之间的关系来聚合上下文信息，最终在三个公共数据集上表现显著优于现有的方法。

Sep, 2019

局部 - 全局视频文本交互的时间对齐

该论文提出了一种基于回归模型的方法，使用文本查询中的语义短语提取中间特征，以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互，通过在多个层面上从局部到全局利用上下文信息，有效地预测目标时间区间。实验证明，该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。

Apr, 2020

基于分层强化学习的视频字幕生成

本文提出了一种新颖的分层强化学习框架，用于视频字幕生成，该框架让高级管理器模块学习设计子目标，低级工作模块识别基本动作以实现子目标，实验证明我们的方法在细粒度视频字幕生成方面优于其他基线方法，并在已广泛使用的 MSR-VTT 数据集上达到了最佳效果。

Nov, 2017

使用基准和共指人生成描述

提出了一种基于弱监督学习的电影描述模型，通过学习角色的可视外观和描述之间的关系来实现角色地位的划分，该模型不仅提高了生成描述的质量，还实现了角色定位，局部共指分辨率，并在 MPII 电影描述数据集上进行了评价。

Apr, 2017