BriefGPT.xyz
Ask
alpha
关键词
multi-modal benchmark
搜索结果 - 3
VideoGUI: 从教学视频中的 GUI 自动化基准
通过视频 GUI 评估可视化导向的图形用户界面 (GUI) 任务上 GUI 助手的表现,并发现当前最先进的大型多模态模型 GPT4o 在高级规划方面表现不佳。
PDF
22 days ago
揭开大型视觉语言模型的一致性之纱
通过多模态基准测试工具 ConBench,本研究首次揭示了大型视觉和语言模型在解决方案空间不同的提示下的答案一致性问题,并通过基于触发器的诊断优化方法,间接提高了模型的性能,以增强其描述能力。
PDF
a month ago
科学语言建模:大型语言模型在分子科学中的定量评价
通过使用多模态基准 ChEBI-20-MM,我们评估了模型与数据模态的兼容性和知识获取,并通过模态转移概率矩阵提供了适用于任务的最合适的模态,同时引入了一种统计可解释的方法,通过局部特征过滤来发现具有上下文特定的知识映射,从而揭示了科学语言
→
PDF
5 months ago
Prev
Next