Jul, 2022

浏览、定位、然后阅读:一种类人的自然语言视频定位框架

TL;DR提出了一种基于Skimming-Locating-Perusing架构,并采用frame-differentiable和boundary-precise的方法用于自然语言视频定位,并在三个具有挑战性的基准测试中获得比先前方法更准确的分割边界。