May, 2025

多语言推文的图像-文本关系预测

TL;DR本研究解决了社交网络中文本与图像关系不明确的问题,提出了使用多语言视觉-语言模型进行图像-文本关系预测的新方法。通过构建一个专门的拉脱维亚推文数据集并进行手动翻译,研究结果显示,近期发布的模型在此任务上表现越来越好,但仍有进一步提升的空间。