- 文本到图像矫正流作为即插即用的先验
大规模扩散模型在生成任务中取得了显著的性能。矫正流是一种新的生成模型类别,在各个领域展现出了优越的性能。通过理论和实验证据,我们展示了基于矫正流的方法与扩散模型具有相似的功能,可以作为有效的先验。此外,基于矫正流的先验方法在图像反转方面表现 - 基于马尔可夫链的多主体辩论框架用于检测 LLM 虚构
我们提出了基于马尔可夫链的多代理辩论验证框架,用于增强简要声明中的错误检测准确性,并通过包括声明检测、证据检索和多代理验证在内的事实检查过程集成验证的方法。实验证明,我们的方法在三个生成任务中相比基准线实现了显著改进。
- 筛选噪声:扩散概率模型及其在生物分子中的应用调查
扩散模型在生物分子结构、序列的预测和设计方面的应用所取得的重要成果以及在生成和预测任务中的角色。
- 用扩散模型合成平衡的混合类型表格数据
介绍了一种公平的扩散模型,用于生成平衡的敏感属性数据,并通过实证证据表明该方法在训练数据中有效地减轻了类别不平衡问题,同时保持生成样本的质量,并且在性能和公平性方面优于现有方法用于综合表格数据。
- 无需真实标准的大型语言模型排名
大语言模型的评估和排名是一个重要的问题,本研究提出了一种新的方法,在没有任何参考数据的情况下,通过考虑三元组模型相互评估来排名这些模型,实验证明该方法可靠地恢复接近真实的排名,为实际使用提供了可行的低资源机制。
- LoRA-Flow:面向生成任务的大型语言模型的动态 LoRA 融合
使用动态融合权重的 LoRA-Flow 方法在六个生成任务中实验证明,相较于基准方法的任务级融合权重,我们的方法始终表现优异,强调了引入动态融合权重对于 LoRA 组合的必要性。
- 生成表示指令调整
通过生成性行为表示指导调整(GRIT)技术,我们训练了一个大型语言模型,通过区分生成和嵌入任务来同时处理两者,该模型在大规模文本嵌入基准(MTEB)上取得了最佳结果,并在多个生成性任务中超越同类模型。通过进一步扩展,我们的模型在仍属于最佳嵌 - 低剂量 CT 图像去噪的泊松流一致性模型
提出了一种结合了 Poisson 流一致性模型(PFCM)的后采样 Poisson 流一致性模型(PS-PFCM)的图像去噪技术,该方法能够在低剂量 CT 图像上优于当前的最优扩散样式模型,并在 CIFAR-10 数据集上提供了初步结果。
- RoSA:鲁棒适应实现准确的参数高效微调
我们研究了能够在计算和内存有限的情况下提供良好准确度的参数高效调整方法(PEFT),我们提出了一种新的 PEFT 方法称为 Robust Adaptation(RoSA),通过在一组固定的预训练权重之上联合训练低秩和高度稀疏的组件,有效地逼 - MIVC:用于视觉语言模型的多实例视觉组件
本文提出了 MIVC,一种通用的多实例可视化组件,通过神经网络以排列不变的方式汇总视觉表示,以填补各种图像输入与预训练语言模型之间的差距。我们展示了 MIVC 如何整合到视觉语言模型中,显著提高了视觉问答、分类和标题任务的模型性能,并使用公 - 将以英语为中心的 LLMs 转变为多语种模型:需要多少语言能力?
通过与只使用英文进行微调的模型相比较,研究发现只使用三种语言进行多语种微调可以显著提高模型在生成式任务上的跨语言转移能力,而在高度结构化的任务上影响较小。
- 生成和判别视觉基础模型的统一化探索
预训练基础模型的出现带来了计算机视觉领域的新篇章,其具有鲁棒性和显著的零样本泛化能力。本综述重点探讨了视觉基础模型在生成任务和判别任务方面的可扩展性、熟练度以及诸多方法。同时,我们整理和讨论了促进视觉基础模型开发的广泛资源,并解决了未来研究 - DiffusionSat:卫星遥感图像的生成基础模型
DiffusionSat 是迄今为止最大的生成基础模型,使用公开可获得的大型高分辨率遥感数据集进行训练,实现对多个生成任务的解决,包括时间生成、多光谱输入的超分辨率和修复。同时它在卫星图像生成方面优于以前的最先进方法,也是第一个针对卫星图像 - VIDiff: 多模态指令扩散模型的视频翻译
我们提出了 Video Instruction Diffusion(VIDiff),这是一个统一的基础模型,专为广泛的视频任务设计,包括理解任务(如语言引导的视频对象分割)和生成任务(视频编辑和增强)。我们的模型可以根据用户指令在几秒钟内编 - 鸸鹋编辑:通过识别和生成任务进行精确图像编辑
Emu Edit 是一个多任务图像编辑模型,通过训练在广泛的任务上展示出卓越的性能,引入了学习任务嵌入来指导生成过程,使其能够成功执行用户的自然语言指令,并且能够推广到新的任务,并发布了一个多样化的基准模型进行评估。
- 核密度比的变分加权
多维变分法引用工具,为减小标准核密度估计的偏差而推导出最优权重函数,从而改善预测后验概率和信息论度量的估计结果,并揭示了核密度估计的一些基本方面,尤其是作为主要构建模块的算法的视角。
- 使用向量量化离散扩散模型进行特定作曲家风格的符号音乐生成
通过将矢量量化变分自编码器(VQ-VAE)与离散扩散模型结合,我们提出了一种生成具有目标作曲家风格的符号音乐的方法,结果表明,我们的模型在满足给定条件的情况下以 72.36% 的高准确率生成符号音乐。
- 多模态图学习的生成任务
多模态图学习 (MMGL) 是一个通用、系统化的框架,用于捕捉具有关系结构的多模态邻居的信息并且在预训练的语言模型中增强其文本生成能力。
- Flesch 或 Fumble?评估教学调整的语言模型的可读性标准对齐
对各种语言模型在书写故事补充和简化叙述等生成任务中根据标准的提示控制文本可读性进行性能调查的研究结果表明,ChatGPT 等全球认可的模型可能相对不够有效,需要更精细的提示,而像 BLOOMZ 和 FlanT5 这样的开放源码模型则显示出有 - LLMCad: 快速可扩展的设备端大型语言模型推理
LLMCad 是一个创新的本地推理引擎,专为高效的自然语言处理任务而设计,通过模型协作实现高速的令牌生成。