large models | BriefGPT - AI 论文速递

关键词large models

搜索结果 - 56

对抗对比训练用于无监督领域自适应
提出了一种新颖的对比对抗训练 (Contrastive Adversarial Training, CAT) 方法，通过利用源域样本来强化和规范目标域的特征生成，以解决领域适应中由于大模型训练和目标域微调缺乏标记数据而导致的问题。该方法可以
PDF10 days ago
资源受限的物联网客户端与大型服务器模型联邦知识传输微调
通过协同智能物联网客户端和中央服务器的迭代学习，我们的方法 KOALA 可以有效地在资源受限的环境中训练大型模型，同时减少对本地存储和计算资源的需求。
PDF20 days ago
ACLPII-Compass: 通过建立联系引导 LLM 训练数据提取提示，指向目标 PII
通过使用领域内数据，我们的方法 PII-Compass 在多个查询量下，通过地面构建的提取提示的前缀，使个人识别信息（PII）的提取能力提高十倍以上，提取电话号码的成功率为 0.92％，3.9％和 6.86％，分别对应于 1 个人中有 15
PDF24 days ago
DocGenome：用于训练和测试多模态大型语言模型的开放式大规模科学文档基准
通过提取自科学文档中的多模态数据，并评估大型模型处理科学文档任务的能力，对科学文档记录的研究发现和有价值的人类知识进行综合性的数据分析是有意义的。我们介绍了 DocGenome，这是一个结构化文档基准，通过我们的自定义自动标注流水线对 ar
PDFa month ago
基于专家模型融合的高效 Pareto 集近似方法
通过专家混合（MoE）模型融合的实用且可扩展的方法，本研究旨在有效学习大型神经网络的 Pareto 集，从而捕捉多个目标之间的权衡关系和大致近似整个 Pareto 集，并在低内存使用量的情况下提供可扩展性。
PDFa month ago
Bioptic - 一种基于疗效的无偏向目标的小分子搜索引擎
通过开发目标不确定、以效能为基础的分子搜索模型，我们能在具有类似生物活性的分子中找到结构不相似的分子。我们使用最佳实践设计了一种快速检索系统，通过处理器优化的 SIMD 指令，可以在 100% 的召回率下筛选超大型的 Enamine REA
PDFa month ago
图像文本分类的稳健潜在表示调整
通过引入模态潜在转换模块和新设计的融合模块，提出了一种强大的大型模型的潜在表示调优方法，以最大化模态之间的相关性，并提供在某一模态缺失情况下的稳健表示，同时保留图像和文本基础模型的冻结状态以保留其大规模预训练所获得的能力。实验证明了该方法的
PDF2 months ago
基于语言大模型和图书知识的肾脏数字病理学视觉知识搜索平台
基于大型模型的图像分割和语义检索，构建了一个检索系统，通过文本描述来检索肾脏病理图像。
PDF2 months ago
预测是所有 Moe 需要的：专家负载分配从波动到稳定
通过追踪和分析大型语言模型训练过程中每个专家的负载，对其负载波动进行了分类并定义了 “明显负载波动” 的瞬态状态和 “时间局部性” 的稳态状态，并应用经典的预测算法实现了准确的专家负载预测，从而为 MoE 模型训练提供了宝贵的专家安置或资源
PDF3 months ago
CVPR不要想粉色大象！
通过分析近期的大型模型，本文展示了它们与人类智能共享的 “白熊现象” 的脆弱性，并提出了基于提示的攻击方法和认知治疗技术启发的防御策略，成功地减轻了攻击效果高达 48.22%。
PDF3 months ago
decoupleQ：通过将参数拆分为整数和浮点数实现 2-bit 后训练统一量化
通过解耦 Q，我们提出了一种量化方法，将模型参数分解为整数部分和浮点部分，使得量化问题转化为约束条件下的数学优化问题，并通过现成的优化方法解决。该方法在线上实现了接近 fp16/bf16 准确度的 2 位量化大型语音模型，在硬件上更友好且能
PDF3 months ago
在前沿上预训练十亿级地理空间基础模型
在预训练基于互联网规模无标签数据的基础模型 (Foundation Models，FMs) 中，研究增至十亿级参数规模的 FMs 和高性能计算 (HPC) 训练，以应用于地理空间图像应用中，取得了较小规模模型的显著准确率提升。
PDF3 months ago
LMEraser：通过自适应提示调整进行大模型消除
为了满足对机器学习隐私保护的不断增长需求，我们提出了一种名为 LMEraser 的适用于大型模型的新颖高效的机器去学习方法。LMEraser 采用分治策略和提示调整架构来隔离数据影响，并实现训练数据集的适应性分区，从而显著降低去学习成本且保
PDF3 months ago
大型语言模型的全面评析和分析：范式和微调策略的导引
通过综述大型模型微调方法，该研究探讨了最新技术进展和在任务自适应微调、领域自适应微调、少样本学习、知识蒸馏、多任务学习、参数高效微调和动态微调等方面的高级方法的应用。
PDF3 months ago
未来技术对未来的预测：大型气象模型的进展
该论文回顾了大型模型，尤其是采用深度学习技术的模型在天气预报中的进展和应用，强调它们在改善传统预报方法方面的作用。这些模型利用卷积神经网络（CNN）、图神经网络（GNN）和 Transformer 等先进的神经网络架构来处理各种气象数据，提
PDF4 months ago
学会伪装：通过多智能体攻击者 - 伪装者游戏避免 LLM 的拒绝回应
通过多智能体进攻 - 伪装博弈方法弱化大模型的防御机制，使其能够安全回应攻击者并隐藏防御意图。
PDF4 months ago
CVPR预训练视觉与语言变形器是少样本增量学习者
本文介绍了一种名为 PriViLege 的新型 FSCIL 框架，通过预训练的视觉和语言转换模型以及提示函数和知识蒸馏，有效地解决了 FSCIL 中的遗忘和过拟合问题，并获得了明显优于现有方法的结果。
PDF4 months ago
大规模模型训练在异构集群中的调度和并行化的协同设计
Crius 是一个用于在异构集群中以自适应并行性高效调度多个大型模型的训练系统，它通过引入称为 Cell 的新调度粒度将数据并行性和张量并行性的探索空间缩小到最小，从而实现准确且低开销的性能估计。通过选择 Cell 作为调度选择，Crius
PDF4 months ago
大规模人工智能模型在放射学应用中的机遇与挑战
受 ChatGPT 的影响，人工智能（AI）大型模型在全球范围内迎来了大规模的研究和开发。本文首先介绍了大型模型的发展历史、技术细节、工作流程以及多模态大型模型和视频生成大型模型的工作原理。其次，我们总结了 AI 大型模型在放射学教育、放射
PDF4 months ago
大型模型的参数高效微调：综合调查
通过介绍 Parameter Efficient Fine-Tuning 算法以及系统实现相关内容，该论文对大模型在计算成本方面的问题进行了综述，提供了对性能和系统实施的深入洞察，为研究人员了解最新发展和实际应用提供了不可或缺的资源。
PDF4 months ago