May, 2023

PaLI-X: 多语言视觉与语言模型的扩展

TL;DRPaLI-X 是一种多语言视觉和语言模型,在组件大小和训练任务混合的广度方面进行了扩展,实现了对各种各样复杂任务的新水平的性能提升,涵盖图像字幕、问题回答、图像文档理解、物体检测、视频问题回答和视频字幕等。