Feb, 2024

百万长度视频和语言的环形注意力世界模型

TL;DR当前语言模型在理解不易用文字描述的世界方面存在不足,并且在处理复杂和长期任务时存在困难。该论文通过利用视频序列的时间信息和语言的静态图像之间的联合建模,在人类文本知识和物理世界方面形成了深入的理解,从而实现了更广泛的人工智能能力。