BriefGPT.xyz
大模型
Ask
alpha
关键词
visual captioning
搜索结果 - 5
CVPR
超越预训练目标检测器:图像字幕生成中的跨模态文本和视觉语境
本文提出了一种通过添加辅助输入以表示缺失信息(例如物体关系)来改进视觉描述模型的方法,并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中,该方法取得了良好的表现。
PDF
2 years ago
ACL
SMURF:基于典型性分析的字幕评估语义和语言理解融合
通过信息理论中的 “典型性” 方法,我们提出了一种新的评估框架来解决视觉字幕生成中缺乏明确答案的问题,并使用该框架开发了语义比较和流畅度评估指标,通过这些指标展示了更高水平的语义和流畅度的区别以及与人类判断的相关性,从而实现了与其他基于规则
→
PDF
3 years ago
MM
融合模型用于改进视觉字幕生成
本文提出了一个通用的多模态模型融合框架,以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合,以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。
PDF
4 years ago
自适应注意力的分层 LSTM 用于视觉字幕生成
通过引入自适应注意力机制以及分层 LSTM(Hierarchical LSTM),提出了一种基于注意力的编码器 - 解码器框架,并在图像和视频描述生成领域通过应用空间或时间注意力机制进行预测。实验表明所提出的框架在图像和视频描述生成任务中均
→
PDF
6 years ago
ACL
没有完美的度量标准:基于对抗性奖励学习的视觉叙事
通过 Adversarial REward Learning 框架从人类示范中学习隐式奖励函数,并通过学习后的奖励函数优化策略搜索,提高在生成抽象故事方面的表现,尤其在人类评估中相比最先进系统,取得了显著进步。
PDF
6 years ago
Prev
Next