BriefGPT.xyz
大模型
Ask
alpha
关键词
video-to-text
搜索结果 - 3
VideoOFA: 为视频到文本生成进行的两阶段预训练
该研究提出了一种新的两阶段预训练框架来生成视频描述和回答问题,称为 VideoOFA 模型,在大规模图像 - 文本数据上预先训练表示学习,然后在中间视频 - 文本预训练阶段仅适应于视频数据来学习时空推理等视频特定技能,这使得该模型在四个视频
→
PDF
a year ago
COLING
基于 STMC-Transformer 的更好手语翻译
本研究提出了 STMC-Transformer 翻译系统,相对当前最先进技术,在 PHOENIX-Weather 2014T 数据集的亮度 - 文本翻译和视频 - 文本翻译方面提高了 5 和 7 BLEU。在 ASLG-PC12 数据集上,
→
PDF
4 years ago
面向上下文感知语音识别的视觉特征
该论文提出了一种基于 DNN 技术的语音识别系统及 RNN 语言模型来提高视频自动生成的字幕准确性,通过对视频中自动检测到的物体或场景的条件来减少困惑度和提高转录,可以应用于机器人、人机交互及音视频存档索引等领域。
PDF
7 years ago
Prev
Next