Jun, 2024

视频多媒体语言模型基准测试的可扩展合成框架

TL;DRVideoNIAH 是一个简单但高度可伸缩的基准构建框架,通过合成视频生成,将测试视频内容与查询 - 响应解耦,并通过插入多个不相关的图像 / 文本 ' 针' 来生成注释,从而确保视频来源的多样性和各种查询 - 响应。