BriefGPT.xyz
Ask
alpha
关键词
multi-modal llms
搜索结果 - 5
ECCV
Meerkat: 音视大型语言模型在时空中的基线
Meerkat 是一个具有对图像和音频进行空间和时间精细理解的音频 - 视觉 LLM 模型,通过优化传输和交叉注意模块,能够处理诸如音频引用图像定位、图像引导音频时间定位和音频 - 视觉事实核查等挑战性任务,在包含 300 万数据样本的 A
→
PDF
5 days ago
Prompt Highlighter:多模态 LLMs 的交互控制
该研究介绍了一种新的推理方法,Prompt Highlighter,通过在生成过程中用户可以突出特定的提示段来实现交互式控制,利用突出显示的令牌通过注意力权重指导模型来产生期望的输出。实验结果证实了该方法在关注输入背景和生成可靠内容方面的有
→
PDF
7 months ago
视觉语言指导调整:综述与分析
通过对多模式大语言模型的最新图像语言指令调整设置和数据集的系统回顾,我们总结出高质量图像语言调整数据的特点,构建了完整的数据收集、指令生成和质量控制模块的构建流水线,并在所构建的指令数据上对三种广泛使用的多模式大语言模型进行了图像语言指令调
→
PDF
8 months ago
GPT-4V 作为视觉语言任务的通用评估器
GPT-4V 在多模态任务的普遍评估方面展现出了巨大的潜力,尽管存在一些限制,但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。
PDF
8 months ago
利用图像和声音进行多模态 LLMs 中的间接指令注入
图像和声音可被用于多模态 LLMs 中的间接提示和指令注入,攻击者通过对图像或音频进行意义相关的干扰并使其融入其中,从而使模型输出攻击者选择的文本和 / 或遵循攻击者指令的后续对话,我们通过几个概念验证实例来说明这种攻击,针对的模型为 LL
→
PDF
a year ago
Prev
Next