BriefGPT.xyz
大模型
Ask
alpha
关键词
visual perception models
搜索结果 - 3
MR-MLLM: 多模态理解和视觉感知的相互增强
一个名为 Mutually Reinforced Multimodal Large Language Model (MR-MLLM) 的新框架,通过共享查询融合机制和增强的跨模态集成方法,结合视觉感知和多模态理解,以及混合了感知信息的提示生
→
PDF
12 days ago
CVPR
Gibson Env: 为身体化智能体提供真实世界感知
为了解决在实际环境中开发视觉感知模型和感觉运动控制的困难和现有算法过慢,本文提出基于虚拟现实的 Gibson Virtual Environment,包含 1400 个真实环境,其中 572 个完整的建筑,其特点是可以提供真实环境的语义复杂
→
PDF
6 years ago
探索弱监督预训练的极限
本文探讨了利用大规模社交媒体图像预测 hashtag 的卷积神经网络进行的迁移学习的行为,并展示了相应的实验结果,证明进行大规模预训练能够显著提高图片分类和物体检测任务的表现。
PDF
6 years ago
Prev
Next