- DocGenome:用于训练和测试多模态大型语言模型的开放式大规模科学文档基准
通过提取自科学文档中的多模态数据,并评估大型模型处理科学文档任务的能力,对科学文档记录的研究发现和有价值的人类知识进行综合性的数据分析是有意义的。我们介绍了 DocGenome,这是一个结构化文档基准,通过我们的自定义自动标注流水线对 ar - 基于专家模型融合的高效 Pareto 集近似方法
通过专家混合(MoE)模型融合的实用且可扩展的方法,本研究旨在有效学习大型神经网络的 Pareto 集,从而捕捉多个目标之间的权衡关系和大致近似整个 Pareto 集,并在低内存使用量的情况下提供可扩展性。
- Bioptic - 一种基于疗效的无偏向目标的小分子搜索引擎
通过开发目标不确定、以效能为基础的分子搜索模型,我们能在具有类似生物活性的分子中找到结构不相似的分子。我们使用最佳实践设计了一种快速检索系统,通过处理器优化的 SIMD 指令,可以在 100% 的召回率下筛选超大型的 Enamine REA - 图像文本分类的稳健潜在表示调整
通过引入模态潜在转换模块和新设计的融合模块,提出了一种强大的大型模型的潜在表示调优方法,以最大化模态之间的相关性,并提供在某一模态缺失情况下的稳健表示,同时保留图像和文本基础模型的冻结状态以保留其大规模预训练所获得的能力。实验证明了该方法的 - 基于语言大模型和图书知识的肾脏数字病理学视觉知识搜索平台
基于大型模型的图像分割和语义检索,构建了一个检索系统,通过文本描述来检索肾脏病理图像。
- 预测是所有 Moe 需要的:专家负载分配从波动到稳定
通过追踪和分析大型语言模型训练过程中每个专家的负载,对其负载波动进行了分类并定义了 “明显负载波动” 的瞬态状态和 “时间局部性” 的稳态状态,并应用经典的预测算法实现了准确的专家负载预测,从而为 MoE 模型训练提供了宝贵的专家安置或资源 - CVPR不要想粉色大象!
通过分析近期的大型模型,本文展示了它们与人类智能共享的 “白熊现象” 的脆弱性,并提出了基于提示的攻击方法和认知治疗技术启发的防御策略,成功地减轻了攻击效果高达 48.22%。
- decoupleQ:通过将参数拆分为整数和浮点数实现 2-bit 后训练统一量化
通过解耦 Q,我们提出了一种量化方法,将模型参数分解为整数部分和浮点部分,使得量化问题转化为约束条件下的数学优化问题,并通过现成的优化方法解决。该方法在线上实现了接近 fp16/bf16 准确度的 2 位量化大型语音模型,在硬件上更友好且能 - 在前沿上预训练十亿级地理空间基础模型
在预训练基于互联网规模无标签数据的基础模型 (Foundation Models,FMs) 中,研究增至十亿级参数规模的 FMs 和高性能计算 (HPC) 训练,以应用于地理空间图像应用中,取得了较小规模模型的显著准确率提升。
- LMEraser:通过自适应提示调整进行大模型消除
为了满足对机器学习隐私保护的不断增长需求,我们提出了一种名为 LMEraser 的适用于大型模型的新颖高效的机器去学习方法。LMEraser 采用分治策略和提示调整架构来隔离数据影响,并实现训练数据集的适应性分区,从而显著降低去学习成本且保 - 大型语言模型的全面评析和分析:范式和微调策略的导引
通过综述大型模型微调方法,该研究探讨了最新技术进展和在任务自适应微调、领域自适应微调、少样本学习、知识蒸馏、多任务学习、参数高效微调和动态微调等方面的高级方法的应用。
- 未来技术对未来的预测:大型气象模型的进展
该论文回顾了大型模型,尤其是采用深度学习技术的模型在天气预报中的进展和应用,强调它们在改善传统预报方法方面的作用。这些模型利用卷积神经网络(CNN)、图神经网络(GNN)和 Transformer 等先进的神经网络架构来处理各种气象数据,提 - 学会伪装:通过多智能体攻击者 - 伪装者游戏避免 LLM 的拒绝回应
通过多智能体进攻 - 伪装博弈方法弱化大模型的防御机制,使其能够安全回应攻击者并隐藏防御意图。
- CVPR预训练视觉与语言变形器是少样本增量学习者
本文介绍了一种名为 PriViLege 的新型 FSCIL 框架,通过预训练的视觉和语言转换模型以及提示函数和知识蒸馏,有效地解决了 FSCIL 中的遗忘和过拟合问题,并获得了明显优于现有方法的结果。
- 大规模模型训练在异构集群中的调度和并行化的协同设计
Crius 是一个用于在异构集群中以自适应并行性高效调度多个大型模型的训练系统,它通过引入称为 Cell 的新调度粒度将数据并行性和张量并行性的探索空间缩小到最小,从而实现准确且低开销的性能估计。通过选择 Cell 作为调度选择,Crius - 大规模人工智能模型在放射学应用中的机遇与挑战
受 ChatGPT 的影响,人工智能(AI)大型模型在全球范围内迎来了大规模的研究和开发。本文首先介绍了大型模型的发展历史、技术细节、工作流程以及多模态大型模型和视频生成大型模型的工作原理。其次,我们总结了 AI 大型模型在放射学教育、放射 - 大型模型的参数高效微调:综合调查
通过介绍 Parameter Efficient Fine-Tuning 算法以及系统实现相关内容,该论文对大模型在计算成本方面的问题进行了综述,提供了对性能和系统实施的深入洞察,为研究人员了解最新发展和实际应用提供了不可或缺的资源。
- DSP: 多维 Transformer 的动态序列并行化
通过动态序列并行化实现多维 Transformer 模型的高效并行计算,提升了 42.0% 至 216.8% 的整体吞吐量。
- 利用大模型推动的临床质量强化学习的放射学报告生成
本文介绍了一种新颖的 LM-RRG 方法,它将大型模型与临床质量强化学习相结合,以生成准确和全面的胸部 X 射线放射学报告。通过设计驱动的大型语言模型特征提取器分析和解释胸部 X 射线图像的不同区域,强调具有医学意义的特定区域。基于大型模型 - 尾巴的故事:模型崩塌作为比例定律的变化
AI 模型规模扩大时,神经缩放定律成为预测大型模型在增加容量和原始(人工或自然)训练数据大小时改进的关键工具。然而,流行模型的广泛使用意味着在线数据和文本的生态系统将逐渐含有越来越多的合成数据。本文通过缩放定律的观点开发了一个有关模型崩溃的