BriefGPT.xyz
Ask
alpha
关键词
multi-modal llm
搜索结果 - 2
多模态大型语言模型的视觉幻觉
通过使用一个工具称为 VHTest,我们生成了一个包含 8 种视觉幻觉模式的多样化 VH 实例数据集,并发现现有的多模态 LLM 如 GPT-4V,LLaVA-1.5 和 MiniGPT-v2 在我们的数据集中的大部分实例中出现幻觉,而使用
→
PDF
4 months ago
语音代理:多模式多智能体系统下的人际交流模拟
提出了一种基于多模态 LLM 的多智能体系统 SpeechAgents,用于模拟人类交流,并通过多智能体调优增强了 LLM 的多智能体能力,实验结果表明 SpeechAgents 可以具有一致的内容、真实的节奏和丰富的情感,同时在高达 25
→
PDF
6 months ago
Prev
Next