本文提出了一种框架来解决视频中的句子填空问题,该框架使用两个分开的 LSTM 来编码左右句子片段,引入了一个新的结构,将每个片段与相反的片段对应的外部记忆组合起来,并使用端到端的空间和时间注意模型选择区分性视觉表示来找到缺失的单词,实验证明了所提出的方法在具有挑战性的 VFIB 问题上的卓越性能。
Apr, 2017
提出一种新型的视频字幕生成框架 Bidirectional Long-Short Term Memory,该框架综合保留了视频的信息,并在常用基准测试上验证了该框架的有效性。
Jun, 2016
该文章介绍了一种基于序列到序列模型和 LSTM 的视频描述方法,利用时间结构,将视频帧序列与单词序列相关联来生成视频描述,同时该模型能够学习视频帧的时间结构和所生成句子的语言模型。
May, 2015
本文提出一种名为 Infilling by Language Modeling 的文本补全方法,它采用了一个预训练的语言模型来预测文档中的任意位置缺失的文本,并在短篇小说、科学摘要和歌词三种不同领域有效地补全整个句子。研究结果显示,采用这种方法补全的句子很难被人识别为机器生成,适用于辅助写作工具。
May, 2020
本文研究了文本生成和填充相关的问题,设计并实现了一种基于自注意力和双向上下文建模的模型,并通过有监督的学习方法进行了实验验证。结果表明,该模型在文本填充任务上表现出色,为未来的相关研究提供了强有力的基线。
Jan, 2019
研究提出了视频理解评估框架和 FIBER 数据集,测试了模型对视频的理解程度,不同于问答或字幕生成任务的开放式评估方式,需要模型填写文本空缺部分,以检验其对视频的理解能力。
Apr, 2021
本研究探讨了使用单一模型同时执行文本填空和生成任务的可行性,发现利用 Fill in the blank 预训练后的模型能够完成这两个任务,并展示了如何使用 Fine-tuning 控制生成的文本的长度和单词选择。
Jun, 2022
本文研究使用图像及视频描述辅助盲人及人机交互的应用。通过使用预训练的对象分类器 CNNs 以及 LSTMs,学习生成描述的算法,并在 MPII-MD 数据集上获得了目前最佳性能。
Jun, 2015
本文提出 MovieFIB 数据集,包括超过 300,000 个问题,用于评估针对视频的模型,研究了 5 种不同模型的预测,比较了这些模型与人类表现的差异,并发现在针对视频的任务中,主要是结合了 2D 和 3D 的视觉信息可以提供最佳结果。
Nov, 2016
本文探讨了如何从大型文本语料库中挖掘语言知识以帮助生成视频的自然语言描述,并将神经语言模型和分布式语义训练应用于最近的基于 LSTM 的视频描述体系结构。我们在一组 Youtube 视频和两个大型电影描述数据集上评估了我们的方法,在改善语法正确性的同时适度提高了描述质量。
Apr, 2016