- 视觉语言建模简介
扩展到视觉领域的大型语言模型(LLMs)的应用将显著影响我们与技术的关系,但需要解决一些可靠性挑战。本文介绍了视觉语言模型(VLM)以及其工作原理、训练方法和评估方法,并讨论了将其扩展到视频领域的问题。
- 优化扩散模型中的采样计划对齐步骤
通过对扩散模型的采样调度进行优化,我们提出了一种通用的、有原则的方法,称为 “调整您的步骤”,以实现高质量输出,并观察到我们优化的调度在几乎所有实验中优于以前手工制作的调度。
- 自编码条件神经过程用于表征学习
该论文介绍了一种基于条件神经过程和图像上下文的模型框架 —— 部分像素空间变分自动编码器(PPS-VAE)来解决视觉领域的图像修复问题,通过该方法不仅可以同时获取上下文和适配条件神经过程,而且其空间排布和值提供了有关图像内容的有力信号。
- ACLPento-DIARef:指代表达生成增量学习算法的诊断数据集
本文介绍了一种基于符号算法和谈判理论的人工智能推理模型,评估了它对于语言任务的处理能力,结果显示此模型表现良好,并提出了更好的模型设计支撑。
- Cream: 基于对比阅读模型和冻结大语言模型的视觉场景自然语言理解
本文提出了一种新的神经架构 ——Contrastive Reading Model (Cream),以加强 LLMs 在视觉领域的语言图像理解能力,实现对文本图像内信息的更有效理解,并在文档智能助手领域达到了最先进的水平。
- LLM2Loss: 利用语言模型进行可解释性模型诊断
利用大型语言模型,结合跨模态基础模型 CLIP,提取视觉输入的语义有意义的表示,并利用轻量诊断模型,对模型失败与偏差进行分析,从而了解黑盒模型的性能
- 多模态生成:将语言模型与图像相结合
该研究提出了一种有效的方法,将预训练的纯文本语言模型转移到视觉领域,使其能够处理和生成任意交错的图像和文本数据,并在上下文图像检索和多模态对话等方面实现了强有力的效果。
- 自监督异常检测:自蒸馏和负采样
本文利用自监督技术与自对比学习方法,对比辅助数据进行负样本采样,并在可视化领域中创造新的无监督 out-of-distribution 检测基准。
- 现代机器学习中的对抗样本:一次回顾
本文对机器学习模型在视觉领域中面临的对抗性攻击和防御方法进行了广泛探讨,并讨论了不同攻击和防御方法的优点和缺点。旨在提供广泛的领域覆盖和机械进攻和防御机制的直观理解。