BriefGPT.xyz
Ask
alpha
关键词
vision-language research
搜索结果 - 2
ACL
移动应用迭代反馈任务(MoTIF):解决交互式视觉环境中任务可行性的问题
该研究介绍了 Mobile app Tasks with Iterative Feedback (MoTIF) 数据集,对比以往任务更为复杂,集成自然语言指令,并引入不可满足情况及其后续问题,以解决任务不确定性,表明需要更丰富的视觉 - 语
→
PDF
3 years ago
CVPR
使用标题和点击数据的多任务文本到视觉嵌入
论文提出一种新的方法,使用图像标题和来自图像搜索引擎的点击数据来学习文本 - 视觉嵌入,并通过建模嵌入的积极感知提出新的三元损失函数,以及引入一种新的基于小批次的难例负采样方法来提高学习过程的数据效率,实验结果表明,该方法的表现优于现有方法
→
PDF
5 years ago
Prev
Next