Jun, 2021

MERLOT: 多模态神经脚本知识模型

TL;DRMERLOT 是一个模型,通过观看数百万个 YouTube 视频进行自我监督的无标签学习,学习多模态脚本知识,包括空间和时间和语境化的全局情况,从而在视觉场景中推理动态情境,形成出色的时间常识和现场表现,并在视觉常识推理方面表现出色。